1 분 소요

개요

  • 2017년 Google 논문 “Attention Is All You Need”에서 발표한 딥러닝 아키텍처
  • RNN의 병렬 처리 한계를 어텐션(Attention) 메커니즘으로 해결
  • 현재 NLP, Vision, 멀티모달 영역의 사실상 표준 아키텍처
  • GPT, BERT, T5, ViT 등 현대 주요 AI 모델의 근간


어텐션 메커니즘 (Attention Mechanism)

  • 입력 시퀀스의 원소들 중 현재 연산에 얼마나 “주의”를 기울이는지를 동적으로 결정
  • 한 단어를 처리할 때 문장 전체에서 관련 있는 단어들을 선택적으로 참조

셀프 어텐션 (Self-Attention)

  • 같은 시퀀스 내 원소들 간의 연관성을 측정
  • Query(Q), Key(K), Value(V) 세 행렬로 형성
    • Attention(Q,K,V) = softmax(Q·Kᵀ / √d_k) · V
  • d_k: Key 벡터의 차원 수 (스케일링으로 안정적 기울기 확보)

멀티헤드 어텐션 (Multi-Head Attention)

  • 셀프 어텐션을 h개의 헤드로 병렬 수행 후 결합
  • 다양한 서브-스페이스에서 연관 정보 동시 포착 (구문론적, 의미론적 관계 등)
  • GPT-4의 경우 96개의 헤드 병렬 사용


구조

인코더 (Encoder)

  • 입력 시퀀스를 문맥 벡터로 인코딩
  • 입력 임베딩: 토큰 → 벡터
  • 포지셔널 인코딩 (Positional Encoding): 순서 정보를 주파수 기반 sin/cos 함수로 주입
  • Multi-Head Self-Attention + Feed-Forward Network 블록 반복

디코더 (Decoder)

  • 인코더 출력과 이전 생성 토큰을 받아 다음 토큰 예측
  • Masked Self-Attention: 미래 토큰을 보지 못하도록 마스킹
  • 디코더만 사용하는 모델(GPT)이 현재 LLM의 주류


인코더 전용 vs 디코더 전용

유형 대표 모델 주요 태스크
인코더 전용 BERT, RoBERTa, DeBERTa 분류, NER, 질의응답(QA)
디코더 전용 GPT 시리즈, LLaMA, Claude 텍스트 생성, 대화
인코더-디코더 T5, BART, mT5 번역, 요약, 질의응답


Vision Transformer (ViT)

  • 2020년 Google Brain이 Transformer를 이미지 분류에 적용
  • 이미지를 16×16 픽셀 패치로 분할 → 토큰이라 처리
  • 대규모 데이터에서 CNN을 능가하는 성능 달성
  • 파생: DeiT, Swin Transformer, DINO, SAM (Segment Anything)


RNN vs Transformer

항목 RNN / LSTM Transformer
병렬 처리 불가 (순차 처리) 가능 (Self-Attention)
장거리 의존성 약함 강함 (O(n²) 연산)
학습 속도 느림 빠름
메모리 단이업 관리 필요
주요 활용 경량 임베디드 LLM, Vision, 멀티모달


관련 포스트