1 분 소요

개요

  • 음성을 텍스트로 변환(STT)하거나 텍스트를 음성으로 변환(TTS)하는 AI
  • STT는 자동 자막·통역·회의 기록, TTS는 음성 비서·오디오북·콜센터에 활용
  • 2024~2025년 실시간 음성 대화 (Voice Mode) 기술이 급속 발전


STT (Speech-to-Text / 음성 인식)

Whisper (OpenAI)

  • OpenAI의 오픈소스 다국어 음성 인식 모델
  • 100개 이상 언어 지원, 로컬 실행 가능
  • whisper.cpp: C++ 포팅으로 CPU에서도 빠른 처리
  • 모델 크기 다양: tiny / base / small / medium / large-v3

주요 서비스

서비스 개발사 특징
Whisper OpenAI 오픈소스, 100+ 언어
Google Speech-to-Text Google 실시간, 스트리밍 지원
Azure Speech Microsoft 엔터프라이즈 화자 분리
Clova Speech 네이버 한국어 특화
AssemblyAI AssemblyAI 화자 분리·요약 특화


TTS (Text-to-Speech / 음성 합성)

주요 서비스

서비스 개발사 특징
OpenAI TTS OpenAI 자연스러운 음성, GPT 연동
ElevenLabs ElevenLabs 음성 복제, 감정 표현
Azure TTS Microsoft 다국어, 엔터프라이즈
CLOVA Voice 네이버 한국어 특화
Kokoro / Chatterbox 오픈소스 로컬 실행 고품질 TTS

음성 복제 (Voice Cloning)

  • 몇 초~몇 분의 샘플 음성으로 특정 인물의 목소리 복제
  • ElevenLabs, Azure Custom Voice 등 제공
  • 딥페이크 음성 악용 위험 → 감지 및 규제 논의 중


실시간 음성 대화 (Voice Mode)

  • ChatGPT Advanced Voice Mode (GPT-4o): 저레이턴시 자연스러운 대화, 감정 표현
  • Gemini Live: Google 생태계 연동 실시간 음성 대화
  • Claude: Anthropic 음성 API 제공


활용

  • 자막·회의록 자동 생성: Whisper 기반 자막 서비스
  • 통역: 실시간 다국어 통역 (Google Pixel Buds 등)
  • 음성 비서: Siri, Google Assistant, Alexa
  • 오디오북: 텍스트→고품질 음성 변환
  • 콜센터 자동화: STT + LLM + TTS 파이프라인


관련 포스트