1 분 소요

개요

  • 노이즈를 점진적으로 제거(역방향 확산)하여 고품질 데이터를 생성하는 생성 모델
  • 2020년 DDPM (Ho et al.) 논문으로 주목받기 시작, 2022년 Stable Diffusion으로 배포 확산
  • 이미지 생성 분야에서 GAN을 대체하는 주류 기술
  • 텍스트, 이미지, 오디오, 3D 등 다양한 데이터 종류에 적용 확산 중


작동 원리

순방향 확산 (Forward Diffusion)

  • 원본 데이터에 매 타임스텝마다 가우시안 노이즈를 소량씩 추가하는 과정
  • T스텝 후에는 원본 정보가 사라지고 순수한 랜덤 노이즈만 남음
  • 마코프 체인으로 모델링 가능, 학습 데이터 생성 시 고정됨

역방향 확산 (Reverse Diffusion)

  • 모델은 역방향(노이즈 → 원본)을 예측하도록 학습
  • U-Net 아키텍처로 각 타임스텝에서 노이즈 성분을 예측
  • 조건(Conditioning) 주입으로 텍스트→이미지 조준 생성 가능

    원본 이미지 -> [노이즈 추가 x T스텝] (Forward) -> 순수 노이즈 <- [U-Net으로 노이즈 제거 x T스텝] (Reverse) <- 생성된 이미지


주요 모델

모델 연도 특징
DDPM 2020 최초의 대표적 Diffusion Model (Ho et al.)
IDDPM 2021 샘플링 스텝 개선, 보간 성능 향상
LDM (Latent Diffusion) 2022 잠재 공간에서 Diffusion, GPU 메모리 대폭 감소
Stable Diffusion 2022 LDM 기반 오픈소스 모델, 로컬 실행 가능
DALL-E 2 / 3 2022~2023 클립 기반 텍스트-이미지 정렬
Midjourney V6 2024 예술적 품질 치중, 구독 서비스
Flux.1 2024 Black Forest Labs, 오픈소스 후속


GAN vs Diffusion Model

항목 GAN Diffusion Model
학습 안정성 낮음 높음
생성 품질 높음 더 높음
다양성 낮음 (Mode Collapse) 높음
생성 속도 빠름 느림 (T스텝 필요)
텍스트 조준 어려움 우수 (CFG)


활용

  • 이미지 생성: 텍스트-이미지 (Text-to-Image), 이미지 편집
  • 인페인팅 (Inpainting): 이미지 일부를 마스킹 후 다시 채우기
  • 스타일 전이 (Style Transfer): 예술 스타일 적용
  • 영상 생성: Sora, Veo 등 영상 생성 모델의 기반
  • 3D 생성: 실사 3D 오브젝트 생성 (Point-E, ShapE)
  • 오디오 생성: 음악, 효과음 생성


관련 포스트