개요
- 방대한 텍스트 데이터로 학습된 대규모 Transformer 기반 언어 모델
- 수십억~수조 개의 파라미터를 가짐
- 텍스트 생성, 요약, 번역, 질의응답, 코드 작성 등 범용 자연어 처리 수행
- AI ⊃ ML ⊃ DL ⊃ LLM
주요 LLM 모델 비교
| 모델 |
개발사 |
파라미터 (최대) |
공개 여부 |
특징 |
| GPT-4o |
OpenAI |
비공개 |
클로즈드 |
멀티모달, 실시간 처리 |
| GPT-o3 |
OpenAI |
비공개 |
클로즈드 |
추론 특화 |
| Claude 3.7 Sonnet |
Anthropic |
비공개 |
클로즈드 |
긴 컨텍스트, 안전성 |
| Gemini 2.0 Ultra |
Google |
비공개 |
클로즈드 |
멀티모달, Google 통합 |
| Llama 3 (405B) |
Meta |
4050억 |
오픈소스 |
오픈소스 최강자 |
| DeepSeek-V3 |
DeepSeek |
6710억 |
오픈소스 |
비용 효율적 |
| Mistral Large |
Mistral AI |
비공개 |
일부 오픈 |
유럽 대표 LLM |
| Qwen 2.5 |
Alibaba |
720억 |
오픈소스 |
다국어 강점 |
핵심 기술
- 셀프 어텐션(Self-Attention)으로 토큰 간 관계를 병렬로 계산
- 인코더-디코더 구조 또는 디코더 전용(GPT 계열) 구조 사용
- 포지셔널 인코딩으로 순서 정보 처리
사전학습 (Pre-training)
- 인터넷 전체, 책, 코드 등 대규모 텍스트로 다음 토큰 예측 학습
- 자가 지도 학습(Self-supervised Learning): 레이블 불필요
- 결과: 언어의 문법·사실·추론 능력이 파라미터에 압축
인스트럭션 튜닝 (Instruction Fine-tuning)
- 사전학습된 모델을 (지시문, 응답) 쌍으로 추가 학습
- 사용자의 지시를 잘 따르도록 조정
RLHF (Reinforcement Learning from Human Feedback)
- 인간 평가자가 모델 응답의 품질을 평가 → 보상 모델 학습
- 보상 모델로 PPO 강화학습 수행
- 목표: 유해 콘텐츠 감소, 도움이 되고 정직하며 무해한 응답 생성
- ChatGPT, GPT-4, Claude에 핵심적으로 사용
RAG (Retrieval-Augmented Generation)
- LLM의 지식 한계(Knowledge Cutoff)를 극복하는 기법
- 외부 문서 데이터베이스에서 관련 내용 검색(Retrieval) → LLM에 컨텍스트로 제공
- 장점: 최신 정보 활용 가능, 환각(Hallucination) 감소
- 구성: 벡터 DB (FAISS, Pinecone) + Embedding 모델 + LLM
Fine-tuning 기법
- Full Fine-tuning: 전체 파라미터 업데이트 (비용 높음)
- LoRA (Low-Rank Adaptation): 원본 가중치를 동결하고 소규모 보조 행렬만 학습
- 파라미터의 0.1~1%만 업데이트로 유사한 성능
- QLoRA: LoRA + 4비트 양자화 → 소비자용 GPU에서도 파인튜닝 가능
- PEFT (Parameter-Efficient Fine-Tuning): LoRA, Prefix Tuning, Prompt Tuning 등 총칭
핵심 개념
컨텍스트 윈도우 (Context Window)
- 모델이 한 번에 처리할 수 있는 토큰(Token) 수
- 토큰 ≈ 평균 약 0.75 단어 (영어 기준)
- 최신 모델 컨텍스트 길이 비교
- GPT-4o: 128K 토큰
- Claude 3.7: 200K 토큰
- Gemini 1.5 Pro: 1M 토큰
환각 (Hallucination)
- LLM이 사실과 다른 내용을 그럴듯하게 생성하는 현상
- 원인: 학습 데이터 불균형, 확률적 생성 방식
- 완화 방법: RAG, 사실 검증 레이어, 온도(Temperature) 조절
토큰화 (Tokenization)
- 텍스트를 모델이 처리할 수 있는 정수 ID 단위로 분할
- BPE (Byte Pair Encoding): 자주 등장하는 문자 쌍을 병합
- SentencePiece, tiktoken 등 사용
온도 (Temperature)
- 생성 다양성을 조절하는 파라미터 (0~2)
- 낮을수록 (0에 가까울수록): 결정적, 반복적
- 높을수록: 창의적, 다양하지만 일관성 낮음
LLM 활용 패턴
- 제로샷 (Zero-shot): 예시 없이 지시만으로 태스크 수행
- 퓨샷 (Few-shot): 소수의 예시를 컨텍스트에 포함해 태스크 수행
- CoT (Chain-of-Thought): 단계별 추론 과정을 명시해 복잡한 문제 해결
- 에이전트 (Agent): 도구 호출(Tool Calling)과 반복적 추론으로 자율적 작업 수행
관련 포스트