개요
- 음성을 텍스트로 변환(STT)하거나 텍스트를 음성으로 변환(TTS)하는 AI
- STT는 자동 자막·통역·회의 기록, TTS는 음성 비서·오디오북·콜센터에 활용
- 2024~2025년 실시간 음성 대화 (Voice Mode) 기술이 급속 발전
STT (Speech-to-Text / 음성 인식)
Whisper (OpenAI)
- OpenAI의 오픈소스 다국어 음성 인식 모델
- 100개 이상 언어 지원, 로컬 실행 가능
whisper.cpp: C++ 포팅으로 CPU에서도 빠른 처리
- 모델 크기 다양: tiny / base / small / medium / large-v3
주요 서비스
| 서비스 |
개발사 |
특징 |
| Whisper |
OpenAI |
오픈소스, 100+ 언어 |
| Google Speech-to-Text |
Google |
실시간, 스트리밍 지원 |
| Azure Speech |
Microsoft |
엔터프라이즈 화자 분리 |
| Clova Speech |
네이버 |
한국어 특화 |
| AssemblyAI |
AssemblyAI |
화자 분리·요약 특화 |
TTS (Text-to-Speech / 음성 합성)
주요 서비스
| 서비스 |
개발사 |
특징 |
| OpenAI TTS |
OpenAI |
자연스러운 음성, GPT 연동 |
| ElevenLabs |
ElevenLabs |
음성 복제, 감정 표현 |
| Azure TTS |
Microsoft |
다국어, 엔터프라이즈 |
| CLOVA Voice |
네이버 |
한국어 특화 |
| Kokoro / Chatterbox |
오픈소스 |
로컬 실행 고품질 TTS |
음성 복제 (Voice Cloning)
- 몇 초~몇 분의 샘플 음성으로 특정 인물의 목소리 복제
- ElevenLabs, Azure Custom Voice 등 제공
- 딥페이크 음성 악용 위험 → 감지 및 규제 논의 중
실시간 음성 대화 (Voice Mode)
- ChatGPT Advanced Voice Mode (GPT-4o): 저레이턴시 자연스러운 대화, 감정 표현
- Gemini Live: Google 생태계 연동 실시간 음성 대화
- Claude: Anthropic 음성 API 제공
활용
- 자막·회의록 자동 생성: Whisper 기반 자막 서비스
- 통역: 실시간 다국어 통역 (Google Pixel Buds 등)
- 음성 비서: Siri, Google Assistant, Alexa
- 오디오북: 텍스트→고품질 음성 변환
- 콜센터 자동화: STT + LLM + TTS 파이프라인
관련 포스트