1 분 소요

개요

  • AI 모델을 개발·실험·배포하기 위한 플랫폼 및 도구
  • Hugging Face(클라우드 허브), Ollama(로컬), Colab(클라우드 GPU) 3가지 주요 환경


Hugging Face

  • 공식 사이트
  • AI 분야의 “GitHub”로 불리는 모델·데이터셋 허브
  • 주요 기능
    • Model Hub: 100만+ 사전학습 모델 공유 (GPT, Llama, BERT, Stable Diffusion 등)
    • Datasets: 벤치마크 및 학습 데이터셋 저장소
    • Spaces: AI 데모 앱 호스팅 (Gradio, Streamlit)
    • Transformers 라이브러리: 모델 로드·파인튜닝 통합 API
    • Inference API / Inference Endpoints: 모델 API 호출 및 배포
  • Python 사용 예시

    from transformers import AutoModelForCausalLM, AutoTokenizer
    model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-3.2-1B")
    


Ollama

  • 공식 사이트
  • 로컬 환경에서 LLM을 쉽게 실행하는 도구
  • Docker처럼 ollama pull llama3.2 명령 하나로 모델 다운로드 및 실행
  • OpenAI 호환 API 제공 → 기존 도구와 쉽게 통합 (http://localhost:11434)
  • 지원 모델: Llama 3.2, Qwen, Phi-4, Mistral, DeepSeek-R1 등
  • 멀티플랫폼: macOS, Linux, Windows

    ollama pull llama3.2        # 모델 다운로드
    ollama run llama3.2         # 대화형 실행
    ollama serve                # API 서버 실행
    


Google Colab

  • 공식 사이트
  • 브라우저 기반 Jupyter Notebook 환경
  • 무료 GPU/TPU 제공 (사용 제한 있음)
  • Colab Pro / Pro+: 더 많은 컴퓨팅 자원, 백그라운드 실행
  • Google Drive 연동으로 파일 저장


기타 주요 도구

도구 목적
Weights & Biases (W&B) 실험 추적, 모델 레지스트리
MLflow 실험 관리, 모델 서빙
Gradio AI 데모 UI 빠른 개발
vLLM 고성능 LLM 서빙 (PagedAttention)
llama.cpp CPU에서 LLM 실행 (GGUF 포맷)
LM Studio GUI 기반 로컬 LLM 실행


관련 포스트