1 분 소요

개요

  • 공식 사이트
  • Google DeepMind가 개발한 멀티모달 AI 모델 및 서비스
  • 2023년 12월 Bard에서 Gemini로 리브랜딩
  • Google 검색, Gmail, Google Docs 등 Google 생태계와 깊은 통합
  • 텍스트·이미지·오디오·비디오·코드를 네이티브로 처리하는 멀티모달 모델


모델 버전 히스토리

출시 모델 주요 특징
2023.12 Gemini 1.0 (Ultra/Pro/Nano) 최초 공개, 3티어 구조
2024.02 Gemini 1.0 Ultra Gemini Advanced에 탑재
2024.05 Gemini 1.5 Pro 1M 토큰 컨텍스트, 멀티모달 강화
2024.05 Gemini 1.5 Flash 속도·비용 최적화
2024.12 Gemini 2.0 Flash 실시간 멀티모달, 에이전트 강화
2025.02 Gemini 2.0 Pro/Ultra 최고 성능, 복잡한 추론
2025.09 Gemini 2.5 Pro 추론 강화, 코딩·수학 SOTA


모델 티어

Ultra

  • 가장 강력한 모델, 복잡한 추론·멀티모달 태스크 특화
  • Gemini Advanced (구독) 및 API로 제공

Pro

  • 성능과 효율의 균형
  • 사용자 서비스 및 API에서 주로 사용

Flash

  • 빠른 속도와 낮은 비용
  • 대용량 처리, 실시간 애플리케이션에 적합

Nano

  • 온디바이스 모델 (스마트폰 등 엣지 기기)
  • Android Pixel, Galaxy 등에 내장


주요 특징

네이티브 멀티모달

  • 텍스트, 이미지, 오디오, 비디오, 코드를 단일 모델에서 처리
  • 타 모델과 달리 후처리 결합이 아닌 통합 학습

초장문 컨텍스트 (1M+ 토큰)

  • Gemini 1.5 Pro: 100만 토큰 (소설 700권 분량)
  • 연구 논문 다수, 긴 동영상, 대규모 코드베이스 분석 가능

Google 서비스 통합

  • Gmail: 이메일 요약, 초안 작성
  • Google Docs/Slides: 문서 생성 및 편집
  • Google 검색: Gemini 기반 AI Overviews
  • Google Meet: 실시간 번역·요약
  • Android: Gemini Assistant

Project Astra (실시간 멀티모달 에이전트)

  • 카메라로 실시간 환경을 인식하고 대화하는 AI 에이전트


Gemini API

기본 사용

  • Google AI Studio에서 무료 실험 가능
  • 엔드포인트: https://generativelanguage.googleapis.com/v1beta/

Vertex AI

  • Google Cloud의 엔터프라이즈 ML 플랫폼
  • 보안, SLA, 멀티리전, Fine-tuning 지원
  • 다른 Google Cloud 서비스와 통합

주요 파라미터

  • model: 모델 ID (예: gemini-2.5-pro)
  • contents: 대화 기록 (role: user/model)
  • generationConfig.temperature: 생성 다양성
  • generationConfig.maxOutputTokens: 최대 출력 토큰


ChatGPT vs Gemini 비교

항목 ChatGPT (GPT-4o) Gemini 2.0
개발사 OpenAI Google DeepMind
멀티모달 텍스트·이미지·음성 텍스트·이미지·오디오·비디오
컨텍스트 128K 토큰 1M+ 토큰
생태계 Microsoft (Bing, Office) Google (검색, Gmail, Docs)
코드 실행 Code Interpreter Google Colab 연동
오픈소스 없음 Gemma (경량 오픈소스)


관련 포스트