개요
- Meta AI가 개발한 오픈소스 대규모 언어 모델 시리즈
- 오픈소스 LLM 생태계의 기반이 되는 핵심 모델
- 자체 서버에 배포 가능한 유일한 카테고리의 오픈소스 LLM
- Alpaca, Vicuna, WizardLM 등 수천 개의 파인튜닝 파생 모델 생태계
버전 히스토리
| 출시 |
모델 |
파라미터 |
특징 |
| 2023.02 |
Llama 1 |
7B~65B |
최초 공개, 연구용 |
| 2023.07 |
Llama 2 |
7B~70B |
상업적 사용 허용 |
| 2024.04 |
Llama 3 |
8B~70B |
성능 대폭 향상 |
| 2024.07 |
Llama 3.1 |
8B~405B |
405B 플래그십 |
| 2024.09 |
Llama 3.2 |
1B~90B (Vision) |
멀티모달 |
| 2025.04 |
Llama 4 |
Scout/Maverick/Behemoth |
MoE 아키텍처 |
주요 특징
- 오픈소스 (Apache 2.0 / 커스텀 라이선스): 가중치 공개 → 자체 서버에 배포 가능
- 다양한 파인튜닝 파생 모델 생태계: Alpaca, Vicuna, WizardLM, Mistral, Qwen 등
- 경량 모델: Llama 3.2 1B/3B — 모바일/엣지 디바이스에 적합
- MoE (Mixture of Experts): Llama 4는 MoE 아키텍처로 모든 파라미터 중 일부만 활성화 → 효율적
- 멀티모달: Llama 3.2 Vision 클래스 이미지+텍스트 입력
로컬에서 실행하기
Ollama
ollama pull llama3.2 한 줄로 다운로드 및 실행
- OpenAI 호환 API 제공 (
http://localhost:11434)
llama.cpp
- CPU+GPU 혼합 처리, 4bit 양자화 GGUF 포맷
- 빠른 샘플링 속도
from transformers import AutoModelForCausalLM
bfloat16 로드 후 파인튜닝 가능
- vLLM: 고성능 LLM API 서버 (PagedAttention)
관련 파생 모델
- Mistral / Mixtral: 프랑스 Mistral AI, MoE는 Mixtral
- Qwen (Alibaba): 다언어 강점
- Gemma (Google): 경량 오픈소스 모델
- Phi-4 (Microsoft): 스몰모델 모음, 강력한 성능
관련 포스트