개요
- 기계 학습의 한 분야로, 다층 인공신경망(Multi-layer Neural Network)을 사용하는 학습 방법
- 데이터에서 계층적 특징(Feature)을 자동으로 추출
- 이미지·음성·텍스트 등 비정형 데이터에서 뛰어난 성능
- AI ⊃ ML ⊃ DL ⊃ LLM
인공신경망 (Artificial Neural Network)
구조
- 뉴런(Neuron): 입력을 받아 가중합(Weighted Sum)을 계산하고 활성화 함수를 통해 출력
- 레이어(Layer)
- 입력층 (Input Layer): 원시 데이터를 받음
- 은닉층 (Hidden Layer): 특징 추출 및 변환 (1층 이상 → 딥)
- 출력층 (Output Layer): 최종 예측값 출력
활성화 함수 (Activation Function)
- 비선형성을 부여하여 신경망이 복잡한 패턴을 학습하게 함
| 함수 |
수식 |
특징 |
| Sigmoid |
1/(1+e⁻ˣ) |
출력 0~1, 기울기 소실 문제 |
| Tanh |
(eˣ-e⁻ˣ)/(eˣ+e⁻ˣ) |
출력 -1~1 |
| ReLU |
max(0, x) |
계산 빠름, 음수 0 처리 |
| LeakyReLU |
max(αx, x) |
Dying ReLU 방지 |
| Softmax |
eˣⁱ / Σeˣʲ |
다중 분류 출력층 |
역전파 (Backpropagation)
- 예측값과 실제값의 오차(Loss)를 줄이기 위해 가중치를 업데이트하는 알고리즘
- 연쇄 법칙(Chain Rule)으로 그래디언트를 역방향 전파
- 옵티마이저: SGD, Adam, RMSProp
주요 아키텍처
CNN (Convolutional Neural Network)
- 이미지·공간 데이터에 특화된 신경망
- 핵심 연산: Convolution(특징 추출) + Pooling(공간 축소)
- 특징
- 지역 수용 영역(Local Receptive Field)으로 공간 특징 포착
- 가중치 공유로 파라미터 수 감소
- 대표 모델: LeNet, AlexNet, VGG, ResNet, EfficientNet
- 활용: 이미지 분류, 객체 탐지, 의료 영상 분석
RNN (Recurrent Neural Network)
- 순서가 있는 시계열·시퀀스 데이터에 특화
- 이전 상태(Hidden State)를 현재 입력과 함께 처리
- 한계: 장기 의존성(Long-term Dependency) 문제, 기울기 소실
- 개선: LSTM(Long Short-Term Memory), GRU(Gated Recurrent Unit)
- 활용: 자연어 처리, 주가 예측, 음성 인식
- Google “Attention Is All You Need” 논문에서 발표
- 셀프 어텐션(Self-Attention) 메커니즘으로 RNN 없이 시퀀스 처리
- 특징
- 병렬 처리로 학습 속도 대폭 향상
- 멀리 떨어진 토큰 간 관계를 직접 모델링
- 포지셔널 인코딩(Positional Encoding)으로 순서 정보 주입
- 현재 NLP, Vision, 멀티모달 분야 표준 아키텍처
- 대표 모델: BERT, GPT 시리즈, T5, ViT
GAN (Generative Adversarial Network, 2014)
- Ian Goodfellow가 제안
- 생성자(Generator)와 판별자(Discriminator)의 경쟁적 학습
- 활용: 이미지 생성, 스타일 변환, 데이터 증강
Diffusion Model (2020~)
- 노이즈를 점진적으로 제거하는 방식으로 고품질 콘텐츠 생성
- GAN 대비 학습 안정적, 다양성 높음
- 대표 모델: Stable Diffusion, DALL-E 2/3, Midjourney
학습 기법
Transfer Learning (전이 학습)
- 대규모 데이터로 사전학습(Pre-training)된 모델의 가중치를 새로운 태스크에 재활용
- 소량의 데이터로도 높은 성능 달성 가능
- Fine-tuning: 사전학습 모델의 일부 또는 전체 가중치를 새 데이터로 추가 학습
사전학습 + 파인튜닝 패러다임
- 대규모 비지도 데이터로 범용 표현 학습 (Pre-training)
- 특정 태스크용 소규모 레이블 데이터로 미세 조정 (Fine-tuning)
- GPT, BERT, LLM 모두 이 패러다임 사용
배치 정규화 (Batch Normalization)
- 각 레이어의 입력을 정규화하여 학습 안정화 및 속도 향상
- 내부 공변량 이동(Internal Covariate Shift) 문제 완화
드롭아웃 (Dropout)
- 학습 중 무작위로 뉴런을 비활성화하여 과적합 방지
- 앙상블 효과
관련 포스트