개요
- 공식 사이트
- Google DeepMind가 개발한 멀티모달 AI 모델 및 서비스
- 2023년 12월 Bard에서 Gemini로 리브랜딩
- Google 검색, Gmail, Google Docs 등 Google 생태계와 깊은 통합
- 텍스트·이미지·오디오·비디오·코드를 네이티브로 처리하는 멀티모달 모델
모델 버전 히스토리
| 출시 |
모델 |
주요 특징 |
| 2023.12 |
Gemini 1.0 (Ultra/Pro/Nano) |
최초 공개, 3티어 구조 |
| 2024.02 |
Gemini 1.0 Ultra |
Gemini Advanced에 탑재 |
| 2024.05 |
Gemini 1.5 Pro |
1M 토큰 컨텍스트, 멀티모달 강화 |
| 2024.05 |
Gemini 1.5 Flash |
속도·비용 최적화 |
| 2024.12 |
Gemini 2.0 Flash |
실시간 멀티모달, 에이전트 강화 |
| 2025.02 |
Gemini 2.0 Pro/Ultra |
최고 성능, 복잡한 추론 |
| 2025.09 |
Gemini 2.5 Pro |
추론 강화, 코딩·수학 SOTA |
모델 티어
Ultra
- 가장 강력한 모델, 복잡한 추론·멀티모달 태스크 특화
- Gemini Advanced (구독) 및 API로 제공
Pro
- 성능과 효율의 균형
- 사용자 서비스 및 API에서 주로 사용
Flash
- 빠른 속도와 낮은 비용
- 대용량 처리, 실시간 애플리케이션에 적합
Nano
- 온디바이스 모델 (스마트폰 등 엣지 기기)
- Android Pixel, Galaxy 등에 내장
주요 특징
네이티브 멀티모달
- 텍스트, 이미지, 오디오, 비디오, 코드를 단일 모델에서 처리
- 타 모델과 달리 후처리 결합이 아닌 통합 학습
초장문 컨텍스트 (1M+ 토큰)
- Gemini 1.5 Pro: 100만 토큰 (소설 700권 분량)
- 연구 논문 다수, 긴 동영상, 대규모 코드베이스 분석 가능
Google 서비스 통합
- Gmail: 이메일 요약, 초안 작성
- Google Docs/Slides: 문서 생성 및 편집
- Google 검색: Gemini 기반 AI Overviews
- Google Meet: 실시간 번역·요약
- Android: Gemini Assistant
Project Astra (실시간 멀티모달 에이전트)
- 카메라로 실시간 환경을 인식하고 대화하는 AI 에이전트
Gemini API
기본 사용
- Google AI Studio에서 무료 실험 가능
- 엔드포인트:
https://generativelanguage.googleapis.com/v1beta/
Vertex AI
- Google Cloud의 엔터프라이즈 ML 플랫폼
- 보안, SLA, 멀티리전, Fine-tuning 지원
- 다른 Google Cloud 서비스와 통합
주요 파라미터
model: 모델 ID (예: gemini-2.5-pro)
contents: 대화 기록 (role: user/model)
generationConfig.temperature: 생성 다양성
generationConfig.maxOutputTokens: 최대 출력 토큰
ChatGPT vs Gemini 비교
| 항목 |
ChatGPT (GPT-4o) |
Gemini 2.0 |
| 개발사 |
OpenAI |
Google DeepMind |
| 멀티모달 |
텍스트·이미지·음성 |
텍스트·이미지·오디오·비디오 |
| 컨텍스트 |
128K 토큰 |
1M+ 토큰 |
| 생태계 |
Microsoft (Bing, Office) |
Google (검색, Gmail, Docs) |
| 코드 실행 |
Code Interpreter |
Google Colab 연동 |
| 오픈소스 |
없음 |
Gemma (경량 오픈소스) |
관련 포스트