휘슬 게이트웨이(Whissle Gateway)가 음성 인식(ASR), 텍스트 음성 변환(TTS), 화자 분리(diarization) 등 다중 모달(multi-modal) 음성 AI 기능을 단 500MB 용량의 로컬 도커(Docker) 이미지로 제공하며 개발자들의 주목을 받고 있습니다. 이 솔루션은 클라우드 서비스에 의존하지 않고 사용자의 컴퓨터에서 직접 모든 음성 AI 작업을 처리할 수 있어, 데이터 보안과 지연 시간(latency) 문제를 해결하는 데 유리합니다.
휘슬 게이트웨이는 음성을 텍스트로 변환하는 ASR, 텍스트를 음성으로 변환하는 TTS 외에도, 대화 참여자를 구분하는 화자 분리, 음성 통화 기능, 그리고 대화 내용에 대한 메타데이터(감정, 행동, 역할, 나이, 성별 등) 추출 및 AI 코칭까지 지원합니다. 특히 영업 코칭(sales coaching)이나 채무 추심(collections)과 같은 특정 비즈니스 시나리오에 맞춰 대화 분석 및 요약 기능을 제공하며, 사용자는 단일 API 호출로 이 모든 기능을 활용할 수 있습니다. 예를 들어, 영업 통화 녹음 파일을 업로드하면 화자별 대화 내용, 감정 분석, 그리고 영업 성과에 대한 종합적인 점수와 개선점을 자동으로 도출해줍니다.
이러한 로컬 기반의 다중 모달 음성 AI 솔루션은 클라우드 사용에 제약이 있거나 민감한 데이터를 다루는 기업 및 개인 개발자에게 큰 이점을 제공합니다. 특히 인터넷 연결이 불안정한 환경에서도 안정적인 서비스 운영이 가능하며, 클라우드 비용 절감 효과도 기대할 수 있습니다. 휘슬 게이트웨이는 다양한 언어 모델(영어, 힌디어-영어, 중국어 등)과 경량화된 모델 옵션을 제공하여 사용자의 필요에 따라 유연하게 선택할 수 있도록 함으로써, 온프레미스 AI 솔루션 시장에서 새로운 기회를 창출할 것으로 보입니다.