chp

99점이 100점이 되기 위해 일을 더하는 개발자

[AI] Diffusion Model (확산 모델)

1 분 소요

개요

노이즈를 점진적으로 제거(역방향 확산)하여 고품질 데이터를 생성하는 생성 모델
2020년 DDPM (Ho et al.) 논문으로 주목받기 시작, 2022년 Stable Diffusion으로 배포 확산
이미지 생성 분야에서 GAN을 대체하는 주류 기술
텍스트, 이미지, 오디오, 3D 등 다양한 데이터 종류에 적용 확산 중

작동 원리

순방향 확산 (Forward Diffusion)

원본 데이터에 매 타임스텝마다 가우시안 노이즈를 소량씩 추가하는 과정
T스텝 후에는 원본 정보가 사라지고 순수한 랜덤 노이즈만 남음
마코프 체인으로 모델링 가능, 학습 데이터 생성 시 고정됨

역방향 확산 (Reverse Diffusion)

모델은 역방향(노이즈 → 원본)을 예측하도록 학습
U-Net 아키텍처로 각 타임스텝에서 노이즈 성분을 예측
조건(Conditioning) 주입으로 텍스트→이미지 조준 생성 가능

원본 이미지 -> [노이즈 추가 x T스텝] (Forward) -> 순수 노이즈 <- [U-Net으로 노이즈 제거 x T스텝] (Reverse) <- 생성된 이미지

주요 모델

모델	연도	특징
DDPM	2020	최초의 대표적 Diffusion Model (Ho et al.)
IDDPM	2021	샘플링 스텝 개선, 보간 성능 향상
LDM (Latent Diffusion)	2022	잠재 공간에서 Diffusion, GPU 메모리 대폭 감소
Stable Diffusion	2022	LDM 기반 오픈소스 모델, 로컬 실행 가능
DALL-E 2 / 3	2022~2023	클립 기반 텍스트-이미지 정렬
Midjourney V6	2024	예술적 품질 치중, 구독 서비스
Flux.1	2024	Black Forest Labs, 오픈소스 후속

GAN vs Diffusion Model

항목	GAN	Diffusion Model
학습 안정성	낮음	높음
생성 품질	높음	더 높음
다양성	낮음 (Mode Collapse)	높음
생성 속도	빠름	느림 (T스텝 필요)
텍스트 조준	어려움	우수 (CFG)

활용

이미지 생성: 텍스트-이미지 (Text-to-Image), 이미지 편집
인페인팅 (Inpainting): 이미지 일부를 마스킹 후 다시 채우기
스타일 전이 (Style Transfer): 예술 스타일 적용
영상 생성: Sora, Veo 등 영상 생성 모델의 기반
3D 생성: 실사 3D 오브젝트 생성 (Point-E, ShapE)
오디오 생성: 음악, 효과음 생성

관련 포스트

공유하기

X Facebook LinkedIn Bluesky

참고

[React] 실무 패턴

3 분 소요

개요 React 앱을 실제로 개발하다 보면 반복적으로 등장하는 패턴들이 있습니다. 인증 보호, 환경변수, 에러 처리, 코드 분할, 로딩 UI 등 자주 쓰이는 실무 패턴을 정리합니다.

[React] 테스트 (Vitest, Testing Library)

2 분 소요

개요 테스트는 코드가 올바르게 동작하는지 자동으로 검증하는 작업입니다. Vitest는 Vite 기반 테스트 러너이고, Testing Library는 실제 사용자 관점에서 컴포넌트를 테스트하는 라이브러리입니다.

[React] shadcn/ui

1 분 소요

개요 shadcn/ui는 Radix UI와 Tailwind CSS를 기반으로 만들어진 UI 컴포넌트 모음입니다. npm 패키지가 아니라 소스 코드를 프로젝트에 직접 복사하는 방식이라, 컴포넌트를 자유롭게 수정할 수 있습니다.

[React] Tailwind CSS

1 분 소요

개요 Tailwind CSS는 미리 정의된 유틸리티 클래스를 조합해 스타일을 지정하는 CSS 프레임워크입니다. 별도의 CSS 파일을 만들지 않고 HTML(JSX)에 클래스만 추가하면 스타일이 적용됩니다.