1 분 소요

개요

  • Meta AI가 개발한 오픈소스 대규모 언어 모델 시리즈
  • 오픈소스 LLM 생태계의 기반이 되는 핵심 모델
  • 자체 서버에 배포 가능한 유일한 카테고리의 오픈소스 LLM
  • Alpaca, Vicuna, WizardLM 등 수천 개의 파인튜닝 파생 모델 생태계


버전 히스토리

출시 모델 파라미터 특징
2023.02 Llama 1 7B~65B 최초 공개, 연구용
2023.07 Llama 2 7B~70B 상업적 사용 허용
2024.04 Llama 3 8B~70B 성능 대폭 향상
2024.07 Llama 3.1 8B~405B 405B 플래그십
2024.09 Llama 3.2 1B~90B (Vision) 멀티모달
2025.04 Llama 4 Scout/Maverick/Behemoth MoE 아키텍처


주요 특징

  • 오픈소스 (Apache 2.0 / 커스텀 라이선스): 가중치 공개 → 자체 서버에 배포 가능
  • 다양한 파인튜닝 파생 모델 생태계: Alpaca, Vicuna, WizardLM, Mistral, Qwen 등
  • 경량 모델: Llama 3.2 1B/3B — 모바일/엣지 디바이스에 적합
  • MoE (Mixture of Experts): Llama 4는 MoE 아키텍처로 모든 파라미터 중 일부만 활성화 → 효율적
  • 멀티모달: Llama 3.2 Vision 클래스 이미지+텍스트 입력


로컬에서 실행하기

Ollama

  • ollama pull llama3.2 한 줄로 다운로드 및 실행
  • OpenAI 호환 API 제공 (http://localhost:11434)

llama.cpp

  • CPU+GPU 혼합 처리, 4bit 양자화 GGUF 포맷
  • 빠른 샘플링 속도

Hugging Face Transformers

  • from transformers import AutoModelForCausalLM
  • bfloat16 로드 후 파인튜닝 가능
  • vLLM: 고성능 LLM API 서버 (PagedAttention)


관련 파생 모델

  • Mistral / Mixtral: 프랑스 Mistral AI, MoE는 Mixtral
  • Qwen (Alibaba): 다언어 강점
  • Gemma (Google): 경량 오픈소스 모델
  • Phi-4 (Microsoft): 스몰모델 모음, 강력한 성능


관련 포스트