2 분 소요

개요

  • 방대한 텍스트 데이터로 학습된 대규모 Transformer 기반 언어 모델
  • 수십억~수조 개의 파라미터를 가짐
  • 텍스트 생성, 요약, 번역, 질의응답, 코드 작성 등 범용 자연어 처리 수행
  • AI ⊃ ML ⊃ DL ⊃ LLM


주요 LLM 모델 비교

모델 개발사 파라미터 (최대) 공개 여부 특징
GPT-4o OpenAI 비공개 클로즈드 멀티모달, 실시간 처리
GPT-o3 OpenAI 비공개 클로즈드 추론 특화
Claude 3.7 Sonnet Anthropic 비공개 클로즈드 긴 컨텍스트, 안전성
Gemini 2.0 Ultra Google 비공개 클로즈드 멀티모달, Google 통합
Llama 3 (405B) Meta 4050억 오픈소스 오픈소스 최강자
DeepSeek-V3 DeepSeek 6710억 오픈소스 비용 효율적
Mistral Large Mistral AI 비공개 일부 오픈 유럽 대표 LLM
Qwen 2.5 Alibaba 720억 오픈소스 다국어 강점


핵심 기술

Transformer 아키텍처

  • 셀프 어텐션(Self-Attention)으로 토큰 간 관계를 병렬로 계산
  • 인코더-디코더 구조 또는 디코더 전용(GPT 계열) 구조 사용
  • 포지셔널 인코딩으로 순서 정보 처리

사전학습 (Pre-training)

  • 인터넷 전체, 책, 코드 등 대규모 텍스트로 다음 토큰 예측 학습
  • 자가 지도 학습(Self-supervised Learning): 레이블 불필요
  • 결과: 언어의 문법·사실·추론 능력이 파라미터에 압축

인스트럭션 튜닝 (Instruction Fine-tuning)

  • 사전학습된 모델을 (지시문, 응답) 쌍으로 추가 학습
  • 사용자의 지시를 잘 따르도록 조정

RLHF (Reinforcement Learning from Human Feedback)

  • 인간 평가자가 모델 응답의 품질을 평가 → 보상 모델 학습
  • 보상 모델로 PPO 강화학습 수행
  • 목표: 유해 콘텐츠 감소, 도움이 되고 정직하며 무해한 응답 생성
  • ChatGPT, GPT-4, Claude에 핵심적으로 사용

RAG (Retrieval-Augmented Generation)

  • LLM의 지식 한계(Knowledge Cutoff)를 극복하는 기법
  • 외부 문서 데이터베이스에서 관련 내용 검색(Retrieval) → LLM에 컨텍스트로 제공
  • 장점: 최신 정보 활용 가능, 환각(Hallucination) 감소
  • 구성: 벡터 DB (FAISS, Pinecone) + Embedding 모델 + LLM

Fine-tuning 기법

  • Full Fine-tuning: 전체 파라미터 업데이트 (비용 높음)
  • LoRA (Low-Rank Adaptation): 원본 가중치를 동결하고 소규모 보조 행렬만 학습
    • 파라미터의 0.1~1%만 업데이트로 유사한 성능
  • QLoRA: LoRA + 4비트 양자화 → 소비자용 GPU에서도 파인튜닝 가능
  • PEFT (Parameter-Efficient Fine-Tuning): LoRA, Prefix Tuning, Prompt Tuning 등 총칭


핵심 개념

컨텍스트 윈도우 (Context Window)

  • 모델이 한 번에 처리할 수 있는 토큰(Token) 수
  • 토큰 ≈ 평균 약 0.75 단어 (영어 기준)
  • 최신 모델 컨텍스트 길이 비교
    • GPT-4o: 128K 토큰
    • Claude 3.7: 200K 토큰
    • Gemini 1.5 Pro: 1M 토큰

환각 (Hallucination)

  • LLM이 사실과 다른 내용을 그럴듯하게 생성하는 현상
  • 원인: 학습 데이터 불균형, 확률적 생성 방식
  • 완화 방법: RAG, 사실 검증 레이어, 온도(Temperature) 조절

토큰화 (Tokenization)

  • 텍스트를 모델이 처리할 수 있는 정수 ID 단위로 분할
  • BPE (Byte Pair Encoding): 자주 등장하는 문자 쌍을 병합
  • SentencePiece, tiktoken 등 사용

온도 (Temperature)

  • 생성 다양성을 조절하는 파라미터 (0~2)
  • 낮을수록 (0에 가까울수록): 결정적, 반복적
  • 높을수록: 창의적, 다양하지만 일관성 낮음


LLM 활용 패턴

  • 제로샷 (Zero-shot): 예시 없이 지시만으로 태스크 수행
  • 퓨샷 (Few-shot): 소수의 예시를 컨텍스트에 포함해 태스크 수행
  • CoT (Chain-of-Thought): 단계별 추론 과정을 명시해 복잡한 문제 해결
  • 에이전트 (Agent): 도구 호출(Tool Calling)과 반복적 추론으로 자율적 작업 수행


관련 포스트