1 분 소요

개요

  • AI 시스템이 사회에 미치는 영향을 고려한 설계·운영·정책의 총체
  • 공정성(Fairness), 투명성(Transparency), 책임성(Accountability)이 핵심
  • 모델 성능의 향상만큼 신뢰 가능하고 안전한 AI가 중요해지는 시대


핵심 원칙 (HHH)

  • Anthropic이 제시한 AI 정렬의 세 가지 목표
  • Helpful (유용성): 사용자의 실제 요구를 충족하고 실질적인 도움을 줄 것
  • Harmless (무해성): 신체적·심리적·사회적 해를 끼치지 않을 것
  • Honest (정직성): 사실에 기반하며, 불확실하면 모른다고 인정할 것
  • 세 원칙은 때로 상충 → 안전을 우선하되 상황에 따라 균형 유지


편향 및 공정성

  • 학습 데이터에 내재된 사회적 편향이 모델 출력에 반영되는 문제
  • 대표적 편향 사례
    • 성별 편향: “간호사는 여성” 등 stereotyping
    • 인종 편향: 얼굴 인식 오류율 차이 (NIST FRVT 연구)
    • 언어 편향: 영어 중심 학습 데이터로 타 언어 성능 저하
  • 편향 탐지 기법
    • 페어니스 지표: Demographic Parity, Equal Opportunity, Equalized Odds
    • WEAT(Word Embedding Association Test): 단어 임베딩 내 편향 측정
  • 완화 기법
    • 데이터 재샘플링, 재레이블링
    • Adversarial Debiasing (적대적 학습으로 편향 제거)
    • DPO(Direct Preference Optimization), RLHF 시 다양한 주석자 구성


환각 (Hallucination)

  • 사실이 아닌 정보를 사실처럼 생성하는 LLM 현상
  • 원인: 다음 토큰 예측이라는 생성 방식의 본질적 한계; 학습 데이터의 오류·편향
  • 유형
    • Intrinsic Hallucination: 소스와 모순되는 생성
    • Extrinsic Hallucination: 소스에 없는 정보를 창작
  • 완화 방법
    • RAG: 실시간 외부 지식 검색으로 근거 제공
    • temperature 낮추기 (0에 가까울수록 결정론적 출력)
    • Chain-of-Thought 프롬프팅으로 추론 과정 노출
    • Fact-checking 파이프라인 구축 (LLM-as-Judge, 외부 검색 검증)


프라이버시 및 보안

  • 학습 데이터에 포함된 개인정보(이메일, 주민번호 등) 노출 위험 (Memorization)
  • 프롬프트 인젝션: 악의적 입력으로 시스템 프롬프트를 무력화하거나 데이터 탈취
  • Privacy-Preserving ML
    • 차등 프라이버시(Differential Privacy): 학습 데이터에 수학적 노이즈를 추가해 개인 식별 방지
    • 연합 학습(Federated Learning): 데이터를 중앙 서버에 전송하지 않고 로컬 학습
  • 보안 가이드라인: OWASP Top 10 for LLMs (Prompt Injection, Insecure Output Handling 등)


AI 안전성 (AI Safety)

  • RLHF (Reinforcement Learning from Human Feedback): 인간 선호도 피드백으로 모델을 정렬
  • Constitutional AI (CAI): Anthropic이 개발, AI가 스스로 원칙에 따라 응답을 자기 비판·수정
  • Superalignment: OpenAI가 추진한 초지능 정렬 연구 (약한 AI가 강한 AI를 감독)
  • 자율 에이전트 위험성: 목표 오정렬, 피드백 루프, 의도하지 않은 행동
  • Red Teaming: 악의적 사용 시나리오를 사전 테스트하여 취약점 발견


규제 동향

지역/기관 내용
EU AI Act 세계 최초 포괄적 AI 법 (2024), 위험 등급 분류
미국 EO 바이든 행정부 AI 행정명령 (2023)
G7 / GPAI 히로시마 AI 프로세스, AI 거버넌스 국제 협력
한국 인공지능 기본법 추진


관련 포스트