개요
- LLM 기반 애플리케이션의 개발·배포·운영을 체계화하는 관행
- MLOps의 LLM 특화 확장 개념
- LLM의 비결정성·비용·환각 등 고유한 운영 과제를 다룸
MLOps vs LLMOps
| 항목 |
MLOps |
LLMOps |
| 모델 학습 |
데이터셋 + 학습 코드 |
대규모 사전학습 (대부분 외부 API 활용) |
| 커스터마이징 |
전체 학습 |
파인튜닝(LoRA), 프롬프트 엔지니어링, RAG |
| 평가 |
정확도, F1 등 |
LLM-as-judge, 인간 평가, RAGAS |
| 핵심 관리 요소 |
모델 가중치 |
프롬프트, RAG 파이프라인, 컨텍스트 |
| 버전 관리 |
코드·데이터·모델 |
코드·프롬프트·문서·모델 |
핵심 관리 영역
프롬프트 관리
- 프롬프트 버전 관리 (Git처럼 diff·rollback 가능)
- A/B 테스트: 프롬프트 변경 전·후 성능 비교
- 시스템 프롬프트 저장·배포 파이프라인
- PromptLayer, LangSmith로 자동화 가능
RAG 운영
- 벡터 DB 문서 업데이트·갱신 파이프라인
- Chunking 전략, 임베딩 모델 관리
- RAGAS: RAG 파이프라인 자동 평가 (Faithfulness, Answer Relevancy)
모니터링
- 환각(Hallucination) 감지, 응답 품질 추적
- 레이턴시, 토큰 비용, 에러율 대시보드
- 사용자 피드백 수집·분석
비용 최적화
- 캐싱: 동일 프롬프트 재사용 (Semantic Cache)
- 모델 선택 최적화: 간단한 쿼리는 저비용 모델, 복잡한 쿼리는 고성능 모델
- 양자화, 배치 처리, 프롬프트 압축
LLM 평가 방법
- LLM-as-Judge: 다른 LLM이 응답 품질 평가 (GPT-4, Claude 활용)
- RAGAS: RAG 파이프라인용 자동 평가 프레임워크
- Evals: OpenAI 공개 평가 프레임워크
- 인간 평가: Thumbs up/down, 전문가 검토
주요 도구
| 도구 |
기능 |
| LangSmith |
LangChain 기반 추적·모니터링·평가 |
| Langfuse |
오픈소스 LLM 관찰 도구 |
| Helicone |
API 프록시 기반 비용·성능 추적 |
| Weights & Biases |
실험 추적, LLM 평가 |
| Arize Phoenix |
LLM 관찰성, 환각 감지 |
관련 포스트