chp

99점이 100점이 되기 위해 일을 더하는 개발자

[AI] DeepSeek

최대 1 분 소요

개요

공식 사이트
중국 AI 스타트업 DeepSeek이 개발한 오픈소스 LLM 시리즈
2025년 초 R1 모델 공개로 전 세계 AI 업계에 충격 (저비용 고성능)
GPT-4급 성능을 클로즈드 모델의 수십 배 낮은 비용으로 달성
MIT 라이선스 오픈소스 공개로 연구·상업 활용 가능

버전 히스토리

출시	모델	특징
2024.01	DeepSeek-V1	최초 공개
2024.05	DeepSeek-V2	MoE (Mixture of Experts) 아키텍처
2024.12	DeepSeek-V3	671B MoE, GPT-4o 수준 성능
2025.01	DeepSeek-R1	추론 특화, OpenAI o1에 필적하는 성능
2025.03	DeepSeek-V3-0324	V3 업데이트

주요 특징

MoE (Mixture of Experts): 전체 파라미터 중 일부만 활성화 → 연산 효율적
- DeepSeek-V3: 671B 전체 파라미터 중 추론 시 37B만 활성화
Multi-Head Latent Attention (MLA): KV 캐시 압축으로 메모리 절감
Multi-Token Prediction: 동시에 여러 토큰 예측으로 추론 속도 향상
fp8 혼합 정밀도 학습으로 학습 비용 대폭 절감

DeepSeek-R1 (추론 모델)

강화학습(GRPO) 기반 추론 능력 강화
Chain-of-Thought 추론 자동 발현 (학습 중 별도 SFT 없이)
OpenAI o1과 유사한 성능, Math·코딩·논리 추론에 강점
蒸留 (Distillation): R1의 추론 데이터로 소형 모델 (1.5B~70B) 증류

DeepSeek 쇼크 (2025년 1월)

GPT-4o급 성능 모델을 약 600만 달러로 학습 (OpenAI GPT-4 추정 비용의 수십 분의 1)
NVIDIA H800 2,048개로 트레이닝
미국 AI 규제 강화 유도, 빅테크 주가 급락
AI 학습 효율성에 대한 패러다임 전환 촉발

관련 포스트

공유하기

X Facebook LinkedIn Bluesky

참고

[React] 실무 패턴

3 분 소요

개요 React 앱을 실제로 개발하다 보면 반복적으로 등장하는 패턴들이 있습니다. 인증 보호, 환경변수, 에러 처리, 코드 분할, 로딩 UI 등 자주 쓰이는 실무 패턴을 정리합니다.

[React] 테스트 (Vitest, Testing Library)

2 분 소요

개요 테스트는 코드가 올바르게 동작하는지 자동으로 검증하는 작업입니다. Vitest는 Vite 기반 테스트 러너이고, Testing Library는 실제 사용자 관점에서 컴포넌트를 테스트하는 라이브러리입니다.

[React] shadcn/ui

1 분 소요

개요 shadcn/ui는 Radix UI와 Tailwind CSS를 기반으로 만들어진 UI 컴포넌트 모음입니다. npm 패키지가 아니라 소스 코드를 프로젝트에 직접 복사하는 방식이라, 컴포넌트를 자유롭게 수정할 수 있습니다.

[React] Tailwind CSS

1 분 소요

개요 Tailwind CSS는 미리 정의된 유틸리티 클래스를 조합해 스타일을 지정하는 CSS 프레임워크입니다. 별도의 CSS 파일을 만들지 않고 HTML(JSX)에 클래스만 추가하면 스타일이 적용됩니다.