chp

99점이 100점이 되기 위해 일을 더하는 개발자

[AI] AI 윤리 및 안전성

1 분 소요

개요

AI 시스템이 사회에 미치는 영향을 고려한 설계·운영·정책의 총체
공정성(Fairness), 투명성(Transparency), 책임성(Accountability)이 핵심
모델 성능의 향상만큼 신뢰 가능하고 안전한 AI가 중요해지는 시대

핵심 원칙 (HHH)

Anthropic이 제시한 AI 정렬의 세 가지 목표
Helpful (유용성): 사용자의 실제 요구를 충족하고 실질적인 도움을 줄 것
Harmless (무해성): 신체적·심리적·사회적 해를 끼치지 않을 것
Honest (정직성): 사실에 기반하며, 불확실하면 모른다고 인정할 것
세 원칙은 때로 상충 → 안전을 우선하되 상황에 따라 균형 유지

편향 및 공정성

학습 데이터에 내재된 사회적 편향이 모델 출력에 반영되는 문제
대표적 편향 사례
- 성별 편향: “간호사는 여성” 등 stereotyping
- 인종 편향: 얼굴 인식 오류율 차이 (NIST FRVT 연구)
- 언어 편향: 영어 중심 학습 데이터로 타 언어 성능 저하
편향 탐지 기법
- 페어니스 지표: Demographic Parity, Equal Opportunity, Equalized Odds
- WEAT(Word Embedding Association Test): 단어 임베딩 내 편향 측정
완화 기법
- 데이터 재샘플링, 재레이블링
- Adversarial Debiasing (적대적 학습으로 편향 제거)
- DPO(Direct Preference Optimization), RLHF 시 다양한 주석자 구성

환각 (Hallucination)

사실이 아닌 정보를 사실처럼 생성하는 LLM 현상
원인: 다음 토큰 예측이라는 생성 방식의 본질적 한계; 학습 데이터의 오류·편향
유형
- Intrinsic Hallucination: 소스와 모순되는 생성
- Extrinsic Hallucination: 소스에 없는 정보를 창작
완화 방법
- RAG: 실시간 외부 지식 검색으로 근거 제공
- temperature 낮추기 (0에 가까울수록 결정론적 출력)
- Chain-of-Thought 프롬프팅으로 추론 과정 노출
- Fact-checking 파이프라인 구축 (LLM-as-Judge, 외부 검색 검증)

프라이버시 및 보안

학습 데이터에 포함된 개인정보(이메일, 주민번호 등) 노출 위험 (Memorization)
프롬프트 인젝션: 악의적 입력으로 시스템 프롬프트를 무력화하거나 데이터 탈취
Privacy-Preserving ML
- 차등 프라이버시(Differential Privacy): 학습 데이터에 수학적 노이즈를 추가해 개인 식별 방지
- 연합 학습(Federated Learning): 데이터를 중앙 서버에 전송하지 않고 로컬 학습
보안 가이드라인: OWASP Top 10 for LLMs (Prompt Injection, Insecure Output Handling 등)

AI 안전성 (AI Safety)

RLHF (Reinforcement Learning from Human Feedback): 인간 선호도 피드백으로 모델을 정렬
Constitutional AI (CAI): Anthropic이 개발, AI가 스스로 원칙에 따라 응답을 자기 비판·수정
Superalignment: OpenAI가 추진한 초지능 정렬 연구 (약한 AI가 강한 AI를 감독)
자율 에이전트 위험성: 목표 오정렬, 피드백 루프, 의도하지 않은 행동
Red Teaming: 악의적 사용 시나리오를 사전 테스트하여 취약점 발견

규제 동향

지역/기관	내용
EU AI Act	세계 최초 포괄적 AI 법 (2024), 위험 등급 분류
미국 EO	바이든 행정부 AI 행정명령 (2023)
G7 / GPAI	히로시마 AI 프로세스, AI 거버넌스 국제 협력
한국	인공지능 기본법 추진

관련 포스트

공유하기

X Facebook LinkedIn Bluesky

참고

[React] 실무 패턴

3 분 소요

개요 React 앱을 실제로 개발하다 보면 반복적으로 등장하는 패턴들이 있습니다. 인증 보호, 환경변수, 에러 처리, 코드 분할, 로딩 UI 등 자주 쓰이는 실무 패턴을 정리합니다.

[React] 테스트 (Vitest, Testing Library)

2 분 소요

개요 테스트는 코드가 올바르게 동작하는지 자동으로 검증하는 작업입니다. Vitest는 Vite 기반 테스트 러너이고, Testing Library는 실제 사용자 관점에서 컴포넌트를 테스트하는 라이브러리입니다.

[React] shadcn/ui

1 분 소요

개요 shadcn/ui는 Radix UI와 Tailwind CSS를 기반으로 만들어진 UI 컴포넌트 모음입니다. npm 패키지가 아니라 소스 코드를 프로젝트에 직접 복사하는 방식이라, 컴포넌트를 자유롭게 수정할 수 있습니다.

[React] Tailwind CSS

1 분 소요

개요 Tailwind CSS는 미리 정의된 유틸리티 클래스를 조합해 스타일을 지정하는 CSS 프레임워크입니다. 별도의 CSS 파일을 만들지 않고 HTML(JSX)에 클래스만 추가하면 스타일이 적용됩니다.