1 분 소요

개요

  • LLM 기반 애플리케이션의 개발·배포·운영을 체계화하는 관행
  • MLOps의 LLM 특화 확장 개념
  • LLM의 비결정성·비용·환각 등 고유한 운영 과제를 다룸


MLOps vs LLMOps

항목 MLOps LLMOps
모델 학습 데이터셋 + 학습 코드 대규모 사전학습 (대부분 외부 API 활용)
커스터마이징 전체 학습 파인튜닝(LoRA), 프롬프트 엔지니어링, RAG
평가 정확도, F1 등 LLM-as-judge, 인간 평가, RAGAS
핵심 관리 요소 모델 가중치 프롬프트, RAG 파이프라인, 컨텍스트
버전 관리 코드·데이터·모델 코드·프롬프트·문서·모델


핵심 관리 영역

프롬프트 관리

  • 프롬프트 버전 관리 (Git처럼 diff·rollback 가능)
  • A/B 테스트: 프롬프트 변경 전·후 성능 비교
  • 시스템 프롬프트 저장·배포 파이프라인
  • PromptLayer, LangSmith로 자동화 가능

RAG 운영

  • 벡터 DB 문서 업데이트·갱신 파이프라인
  • Chunking 전략, 임베딩 모델 관리
  • RAGAS: RAG 파이프라인 자동 평가 (Faithfulness, Answer Relevancy)

모니터링

  • 환각(Hallucination) 감지, 응답 품질 추적
  • 레이턴시, 토큰 비용, 에러율 대시보드
  • 사용자 피드백 수집·분석

비용 최적화

  • 캐싱: 동일 프롬프트 재사용 (Semantic Cache)
  • 모델 선택 최적화: 간단한 쿼리는 저비용 모델, 복잡한 쿼리는 고성능 모델
  • 양자화, 배치 처리, 프롬프트 압축


LLM 평가 방법

  • LLM-as-Judge: 다른 LLM이 응답 품질 평가 (GPT-4, Claude 활용)
  • RAGAS: RAG 파이프라인용 자동 평가 프레임워크
  • Evals: OpenAI 공개 평가 프레임워크
  • 인간 평가: Thumbs up/down, 전문가 검토


주요 도구

도구 기능
LangSmith LangChain 기반 추적·모니터링·평가
Langfuse 오픈소스 LLM 관찰 도구
Helicone API 프록시 기반 비용·성능 추적
Weights & Biases 실험 추적, LLM 평가
Arize Phoenix LLM 관찰성, 환각 감지


관련 포스트