[AI] Diffusion Model (확산 모델)
개요
- 노이즈를 점진적으로 제거(역방향 확산)하여 고품질 데이터를 생성하는 생성 모델
- 2020년 DDPM (Ho et al.) 논문으로 주목받기 시작, 2022년 Stable Diffusion으로 배포 확산
- 이미지 생성 분야에서 GAN을 대체하는 주류 기술
- 텍스트, 이미지, 오디오, 3D 등 다양한 데이터 종류에 적용 확산 중
작동 원리
순방향 확산 (Forward Diffusion)
- 원본 데이터에 매 타임스텝마다 가우시안 노이즈를 소량씩 추가하는 과정
- T스텝 후에는 원본 정보가 사라지고 순수한 랜덤 노이즈만 남음
- 마코프 체인으로 모델링 가능, 학습 데이터 생성 시 고정됨
역방향 확산 (Reverse Diffusion)
- 모델은 역방향(노이즈 → 원본)을 예측하도록 학습
- U-Net 아키텍처로 각 타임스텝에서 노이즈 성분을 예측
-
조건(Conditioning) 주입으로 텍스트→이미지 조준 생성 가능
원본 이미지 -> [노이즈 추가 x T스텝] (Forward) -> 순수 노이즈 <- [U-Net으로 노이즈 제거 x T스텝] (Reverse) <- 생성된 이미지
주요 모델
| 모델 | 연도 | 특징 |
|---|---|---|
| DDPM | 2020 | 최초의 대표적 Diffusion Model (Ho et al.) |
| IDDPM | 2021 | 샘플링 스텝 개선, 보간 성능 향상 |
| LDM (Latent Diffusion) | 2022 | 잠재 공간에서 Diffusion, GPU 메모리 대폭 감소 |
| Stable Diffusion | 2022 | LDM 기반 오픈소스 모델, 로컬 실행 가능 |
| DALL-E 2 / 3 | 2022~2023 | 클립 기반 텍스트-이미지 정렬 |
| Midjourney V6 | 2024 | 예술적 품질 치중, 구독 서비스 |
| Flux.1 | 2024 | Black Forest Labs, 오픈소스 후속 |
GAN vs Diffusion Model
| 항목 | GAN | Diffusion Model |
|---|---|---|
| 학습 안정성 | 낮음 | 높음 |
| 생성 품질 | 높음 | 더 높음 |
| 다양성 | 낮음 (Mode Collapse) | 높음 |
| 생성 속도 | 빠름 | 느림 (T스텝 필요) |
| 텍스트 조준 | 어려움 | 우수 (CFG) |
활용
- 이미지 생성: 텍스트-이미지 (Text-to-Image), 이미지 편집
- 인페인팅 (Inpainting): 이미지 일부를 마스킹 후 다시 채우기
- 스타일 전이 (Style Transfer): 예술 스타일 적용
- 영상 생성: Sora, Veo 등 영상 생성 모델의 기반
- 3D 생성: 실사 3D 오브젝트 생성 (Point-E, ShapE)
- 오디오 생성: 음악, 효과음 생성