chp

99점이 100점이 되기 위해 일을 더하는 개발자

[AI] LLMOps

1 분 소요

개요

LLM 기반 애플리케이션의 개발·배포·운영을 체계화하는 관행
MLOps의 LLM 특화 확장 개념
LLM의 비결정성·비용·환각 등 고유한 운영 과제를 다룸

MLOps vs LLMOps

항목	MLOps	LLMOps
모델 학습	데이터셋 + 학습 코드	대규모 사전학습 (대부분 외부 API 활용)
커스터마이징	전체 학습	파인튜닝(LoRA), 프롬프트 엔지니어링, RAG
평가	정확도, F1 등	LLM-as-judge, 인간 평가, RAGAS
핵심 관리 요소	모델 가중치	프롬프트, RAG 파이프라인, 컨텍스트
버전 관리	코드·데이터·모델	코드·프롬프트·문서·모델

핵심 관리 영역

프롬프트 관리

프롬프트 버전 관리 (Git처럼 diff·rollback 가능)
A/B 테스트: 프롬프트 변경 전·후 성능 비교
시스템 프롬프트 저장·배포 파이프라인
PromptLayer, LangSmith로 자동화 가능

RAG 운영

벡터 DB 문서 업데이트·갱신 파이프라인
Chunking 전략, 임베딩 모델 관리
RAGAS: RAG 파이프라인 자동 평가 (Faithfulness, Answer Relevancy)

모니터링

환각(Hallucination) 감지, 응답 품질 추적
레이턴시, 토큰 비용, 에러율 대시보드
사용자 피드백 수집·분석

비용 최적화

캐싱: 동일 프롬프트 재사용 (Semantic Cache)
모델 선택 최적화: 간단한 쿼리는 저비용 모델, 복잡한 쿼리는 고성능 모델
양자화, 배치 처리, 프롬프트 압축

LLM 평가 방법

LLM-as-Judge: 다른 LLM이 응답 품질 평가 (GPT-4, Claude 활용)
RAGAS: RAG 파이프라인용 자동 평가 프레임워크
Evals: OpenAI 공개 평가 프레임워크
인간 평가: Thumbs up/down, 전문가 검토

주요 도구

도구	기능
LangSmith	LangChain 기반 추적·모니터링·평가
Langfuse	오픈소스 LLM 관찰 도구
Helicone	API 프록시 기반 비용·성능 추적
Weights & Biases	실험 추적, LLM 평가
Arize Phoenix	LLM 관찰성, 환각 감지

관련 포스트

공유하기

X Facebook LinkedIn Bluesky

참고

[React] 실무 패턴

3 분 소요

개요 React 앱을 실제로 개발하다 보면 반복적으로 등장하는 패턴들이 있습니다. 인증 보호, 환경변수, 에러 처리, 코드 분할, 로딩 UI 등 자주 쓰이는 실무 패턴을 정리합니다.

[React] 테스트 (Vitest, Testing Library)

2 분 소요

개요 테스트는 코드가 올바르게 동작하는지 자동으로 검증하는 작업입니다. Vitest는 Vite 기반 테스트 러너이고, Testing Library는 실제 사용자 관점에서 컴포넌트를 테스트하는 라이브러리입니다.

[React] shadcn/ui

1 분 소요

개요 shadcn/ui는 Radix UI와 Tailwind CSS를 기반으로 만들어진 UI 컴포넌트 모음입니다. npm 패키지가 아니라 소스 코드를 프로젝트에 직접 복사하는 방식이라, 컴포넌트를 자유롭게 수정할 수 있습니다.

[React] Tailwind CSS

1 분 소요

개요 Tailwind CSS는 미리 정의된 유틸리티 클래스를 조합해 스타일을 지정하는 CSS 프레임워크입니다. 별도의 CSS 파일을 만들지 않고 HTML(JSX)에 클래스만 추가하면 스타일이 적용됩니다.