개요
- 2017년 Google 논문 “Attention Is All You Need”에서 발표한 딥러닝 아키텍처
- RNN의 병렬 처리 한계를 어텐션(Attention) 메커니즘으로 해결
- 현재 NLP, Vision, 멀티모달 영역의 사실상 표준 아키텍처
- GPT, BERT, T5, ViT 등 현대 주요 AI 모델의 근간
어텐션 메커니즘 (Attention Mechanism)
- 입력 시퀀스의 원소들 중 현재 연산에 얼마나 “주의”를 기울이는지를 동적으로 결정
- 한 단어를 처리할 때 문장 전체에서 관련 있는 단어들을 선택적으로 참조
셀프 어텐션 (Self-Attention)
- 같은 시퀀스 내 원소들 간의 연관성을 측정
- Query(Q), Key(K), Value(V) 세 행렬로 형성
Attention(Q,K,V) = softmax(Q·Kᵀ / √d_k) · V
- d_k: Key 벡터의 차원 수 (스케일링으로 안정적 기울기 확보)
멀티헤드 어텐션 (Multi-Head Attention)
- 셀프 어텐션을 h개의 헤드로 병렬 수행 후 결합
- 다양한 서브-스페이스에서 연관 정보 동시 포착 (구문론적, 의미론적 관계 등)
- GPT-4의 경우 96개의 헤드 병렬 사용
구조
인코더 (Encoder)
- 입력 시퀀스를 문맥 벡터로 인코딩
- 입력 임베딩: 토큰 → 벡터
- 포지셔널 인코딩 (Positional Encoding): 순서 정보를 주파수 기반 sin/cos 함수로 주입
- Multi-Head Self-Attention + Feed-Forward Network 블록 반복
디코더 (Decoder)
- 인코더 출력과 이전 생성 토큰을 받아 다음 토큰 예측
- Masked Self-Attention: 미래 토큰을 보지 못하도록 마스킹
- 디코더만 사용하는 모델(GPT)이 현재 LLM의 주류
인코더 전용 vs 디코더 전용
| 유형 |
대표 모델 |
주요 태스크 |
| 인코더 전용 |
BERT, RoBERTa, DeBERTa |
분류, NER, 질의응답(QA) |
| 디코더 전용 |
GPT 시리즈, LLaMA, Claude |
텍스트 생성, 대화 |
| 인코더-디코더 |
T5, BART, mT5 |
번역, 요약, 질의응답 |
- 2020년 Google Brain이 Transformer를 이미지 분류에 적용
- 이미지를 16×16 픽셀 패치로 분할 → 토큰이라 처리
- 대규모 데이터에서 CNN을 능가하는 성능 달성
- 파생: DeiT, Swin Transformer, DINO, SAM (Segment Anything)
| 항목 |
RNN / LSTM |
Transformer |
| 병렬 처리 |
불가 (순차 처리) |
가능 (Self-Attention) |
| 장거리 의존성 |
약함 |
강함 (O(n²) 연산) |
| 학습 속도 |
느림 |
빠름 |
| 메모리 |
단이업 |
관리 필요 |
| 주요 활용 |
경량 임베디드 |
LLM, Vision, 멀티모달 |
관련 포스트