개요
- 공식 사이트
- 중국 AI 스타트업 DeepSeek이 개발한 오픈소스 LLM 시리즈
- 2025년 초 R1 모델 공개로 전 세계 AI 업계에 충격 (저비용 고성능)
- GPT-4급 성능을 클로즈드 모델의 수십 배 낮은 비용으로 달성
- MIT 라이선스 오픈소스 공개로 연구·상업 활용 가능
버전 히스토리
| 출시 |
모델 |
특징 |
| 2024.01 |
DeepSeek-V1 |
최초 공개 |
| 2024.05 |
DeepSeek-V2 |
MoE (Mixture of Experts) 아키텍처 |
| 2024.12 |
DeepSeek-V3 |
671B MoE, GPT-4o 수준 성능 |
| 2025.01 |
DeepSeek-R1 |
추론 특화, OpenAI o1에 필적하는 성능 |
| 2025.03 |
DeepSeek-V3-0324 |
V3 업데이트 |
주요 특징
- MoE (Mixture of Experts): 전체 파라미터 중 일부만 활성화 → 연산 효율적
- DeepSeek-V3: 671B 전체 파라미터 중 추론 시 37B만 활성화
- Multi-Head Latent Attention (MLA): KV 캐시 압축으로 메모리 절감
- Multi-Token Prediction: 동시에 여러 토큰 예측으로 추론 속도 향상
fp8 혼합 정밀도 학습으로 학습 비용 대폭 절감
DeepSeek-R1 (추론 모델)
- 강화학습(GRPO) 기반 추론 능력 강화
- Chain-of-Thought 추론 자동 발현 (학습 중 별도 SFT 없이)
- OpenAI o1과 유사한 성능, Math·코딩·논리 추론에 강점
- 蒸留 (Distillation): R1의 추론 데이터로 소형 모델 (1.5B~70B) 증류
DeepSeek 쇼크 (2025년 1월)
- GPT-4o급 성능 모델을 약 600만 달러로 학습 (OpenAI GPT-4 추정 비용의 수십 분의 1)
- NVIDIA H800 2,048개로 트레이닝
- 미국 AI 규제 강화 유도, 빅테크 주가 급락
- AI 학습 효율성에 대한 패러다임 전환 촉발
관련 포스트