chp

99점이 100점이 되기 위해 일을 더하는 개발자

[AI] 음성 AI (Whisper / TTS)

1 분 소요

개요

음성을 텍스트로 변환(STT)하거나 텍스트를 음성으로 변환(TTS)하는 AI
STT는 자동 자막·통역·회의 기록, TTS는 음성 비서·오디오북·콜센터에 활용
2024~2025년 실시간 음성 대화 (Voice Mode) 기술이 급속 발전

STT (Speech-to-Text / 음성 인식)

Whisper (OpenAI)

OpenAI의 오픈소스 다국어 음성 인식 모델
100개 이상 언어 지원, 로컬 실행 가능
whisper.cpp: C++ 포팅으로 CPU에서도 빠른 처리
모델 크기 다양: tiny / base / small / medium / large-v3

주요 서비스

서비스	개발사	특징
Whisper	OpenAI	오픈소스, 100+ 언어
Google Speech-to-Text	Google	실시간, 스트리밍 지원
Azure Speech	Microsoft	엔터프라이즈 화자 분리
Clova Speech	네이버	한국어 특화
AssemblyAI	AssemblyAI	화자 분리·요약 특화

TTS (Text-to-Speech / 음성 합성)

주요 서비스

서비스	개발사	특징
OpenAI TTS	OpenAI	자연스러운 음성, GPT 연동
ElevenLabs	ElevenLabs	음성 복제, 감정 표현
Azure TTS	Microsoft	다국어, 엔터프라이즈
CLOVA Voice	네이버	한국어 특화
Kokoro / Chatterbox	오픈소스	로컬 실행 고품질 TTS

음성 복제 (Voice Cloning)

몇 초~몇 분의 샘플 음성으로 특정 인물의 목소리 복제
ElevenLabs, Azure Custom Voice 등 제공
딥페이크 음성 악용 위험 → 감지 및 규제 논의 중

실시간 음성 대화 (Voice Mode)

ChatGPT Advanced Voice Mode (GPT-4o): 저레이턴시 자연스러운 대화, 감정 표현
Gemini Live: Google 생태계 연동 실시간 음성 대화
Claude: Anthropic 음성 API 제공

활용

자막·회의록 자동 생성: Whisper 기반 자막 서비스
통역: 실시간 다국어 통역 (Google Pixel Buds 등)
음성 비서: Siri, Google Assistant, Alexa
오디오북: 텍스트→고품질 음성 변환
콜센터 자동화: STT + LLM + TTS 파이프라인

관련 포스트

공유하기

X Facebook LinkedIn Bluesky

참고

[React] 실무 패턴

3 분 소요

개요 React 앱을 실제로 개발하다 보면 반복적으로 등장하는 패턴들이 있습니다. 인증 보호, 환경변수, 에러 처리, 코드 분할, 로딩 UI 등 자주 쓰이는 실무 패턴을 정리합니다.

[React] 테스트 (Vitest, Testing Library)

2 분 소요

개요 테스트는 코드가 올바르게 동작하는지 자동으로 검증하는 작업입니다. Vitest는 Vite 기반 테스트 러너이고, Testing Library는 실제 사용자 관점에서 컴포넌트를 테스트하는 라이브러리입니다.

[React] shadcn/ui

1 분 소요

개요 shadcn/ui는 Radix UI와 Tailwind CSS를 기반으로 만들어진 UI 컴포넌트 모음입니다. npm 패키지가 아니라 소스 코드를 프로젝트에 직접 복사하는 방식이라, 컴포넌트를 자유롭게 수정할 수 있습니다.

[React] Tailwind CSS

1 분 소요

개요 Tailwind CSS는 미리 정의된 유틸리티 클래스를 조합해 스타일을 지정하는 CSS 프레임워크입니다. 별도의 CSS 파일을 만들지 않고 HTML(JSX)에 클래스만 추가하면 스타일이 적용됩니다.