최대 1 분 소요

개요

  • 공식 사이트
  • 중국 AI 스타트업 DeepSeek이 개발한 오픈소스 LLM 시리즈
  • 2025년 초 R1 모델 공개로 전 세계 AI 업계에 충격 (저비용 고성능)
  • GPT-4급 성능을 클로즈드 모델의 수십 배 낮은 비용으로 달성
  • MIT 라이선스 오픈소스 공개로 연구·상업 활용 가능


버전 히스토리

출시 모델 특징
2024.01 DeepSeek-V1 최초 공개
2024.05 DeepSeek-V2 MoE (Mixture of Experts) 아키텍처
2024.12 DeepSeek-V3 671B MoE, GPT-4o 수준 성능
2025.01 DeepSeek-R1 추론 특화, OpenAI o1에 필적하는 성능
2025.03 DeepSeek-V3-0324 V3 업데이트


주요 특징

  • MoE (Mixture of Experts): 전체 파라미터 중 일부만 활성화 → 연산 효율적
    • DeepSeek-V3: 671B 전체 파라미터 중 추론 시 37B만 활성화
  • Multi-Head Latent Attention (MLA): KV 캐시 압축으로 메모리 절감
  • Multi-Token Prediction: 동시에 여러 토큰 예측으로 추론 속도 향상
  • fp8 혼합 정밀도 학습으로 학습 비용 대폭 절감


DeepSeek-R1 (추론 모델)

  • 강화학습(GRPO) 기반 추론 능력 강화
  • Chain-of-Thought 추론 자동 발현 (학습 중 별도 SFT 없이)
  • OpenAI o1과 유사한 성능, Math·코딩·논리 추론에 강점
  • 蒸留 (Distillation): R1의 추론 데이터로 소형 모델 (1.5B~70B) 증류


DeepSeek 쇼크 (2025년 1월)

  • GPT-4o급 성능 모델을 약 600만 달러로 학습 (OpenAI GPT-4 추정 비용의 수십 분의 1)
  • NVIDIA H800 2,048개로 트레이닝
  • 미국 AI 규제 강화 유도, 빅테크 주가 급락
  • AI 학습 효율성에 대한 패러다임 전환 촉발


관련 포스트