개요
- AI 시스템이 사회에 미치는 영향을 고려한 설계·운영·정책의 총체
- 공정성(Fairness), 투명성(Transparency), 책임성(Accountability)이 핵심
- 모델 성능의 향상만큼 신뢰 가능하고 안전한 AI가 중요해지는 시대
핵심 원칙 (HHH)
- Anthropic이 제시한 AI 정렬의 세 가지 목표
- Helpful (유용성): 사용자의 실제 요구를 충족하고 실질적인 도움을 줄 것
- Harmless (무해성): 신체적·심리적·사회적 해를 끼치지 않을 것
- Honest (정직성): 사실에 기반하며, 불확실하면 모른다고 인정할 것
- 세 원칙은 때로 상충 → 안전을 우선하되 상황에 따라 균형 유지
편향 및 공정성
- 학습 데이터에 내재된 사회적 편향이 모델 출력에 반영되는 문제
- 대표적 편향 사례
- 성별 편향: “간호사는 여성” 등 stereotyping
- 인종 편향: 얼굴 인식 오류율 차이 (NIST FRVT 연구)
- 언어 편향: 영어 중심 학습 데이터로 타 언어 성능 저하
- 편향 탐지 기법
- 페어니스 지표: Demographic Parity, Equal Opportunity, Equalized Odds
- WEAT(Word Embedding Association Test): 단어 임베딩 내 편향 측정
- 완화 기법
- 데이터 재샘플링, 재레이블링
- Adversarial Debiasing (적대적 학습으로 편향 제거)
- DPO(Direct Preference Optimization), RLHF 시 다양한 주석자 구성
환각 (Hallucination)
- 사실이 아닌 정보를 사실처럼 생성하는 LLM 현상
- 원인: 다음 토큰 예측이라는 생성 방식의 본질적 한계; 학습 데이터의 오류·편향
- 유형
- Intrinsic Hallucination: 소스와 모순되는 생성
- Extrinsic Hallucination: 소스에 없는 정보를 창작
- 완화 방법
- RAG: 실시간 외부 지식 검색으로 근거 제공
- temperature 낮추기 (0에 가까울수록 결정론적 출력)
- Chain-of-Thought 프롬프팅으로 추론 과정 노출
- Fact-checking 파이프라인 구축 (LLM-as-Judge, 외부 검색 검증)
프라이버시 및 보안
- 학습 데이터에 포함된 개인정보(이메일, 주민번호 등) 노출 위험 (Memorization)
- 프롬프트 인젝션: 악의적 입력으로 시스템 프롬프트를 무력화하거나 데이터 탈취
- Privacy-Preserving ML
- 차등 프라이버시(Differential Privacy): 학습 데이터에 수학적 노이즈를 추가해 개인 식별 방지
- 연합 학습(Federated Learning): 데이터를 중앙 서버에 전송하지 않고 로컬 학습
- 보안 가이드라인: OWASP Top 10 for LLMs (Prompt Injection, Insecure Output Handling 등)
AI 안전성 (AI Safety)
- RLHF (Reinforcement Learning from Human Feedback): 인간 선호도 피드백으로 모델을 정렬
- Constitutional AI (CAI): Anthropic이 개발, AI가 스스로 원칙에 따라 응답을 자기 비판·수정
- Superalignment: OpenAI가 추진한 초지능 정렬 연구 (약한 AI가 강한 AI를 감독)
- 자율 에이전트 위험성: 목표 오정렬, 피드백 루프, 의도하지 않은 행동
- Red Teaming: 악의적 사용 시나리오를 사전 테스트하여 취약점 발견
규제 동향
| 지역/기관 |
내용 |
| EU AI Act |
세계 최초 포괄적 AI 법 (2024), 위험 등급 분류 |
| 미국 EO |
바이든 행정부 AI 행정명령 (2023) |
| G7 / GPAI |
히로시마 AI 프로세스, AI 거버넌스 국제 협력 |
| 한국 |
인공지능 기본법 추진 |
관련 포스트