마이크로소프트(Microsoft)가 최상위 모델 제품군인 MAI의 새로운 음성 합성(Text-to-Speech, TTS) 모델 'MAI-Voice-2'를 공개했습니다. 이 모델은 15개 언어를 지원하며, 짧은 음성 샘플만으로도 특정인의 목소리를 복제(voice cloning)할 수 있는 기능을 제공합니다. 이는 개발자들이 고품질의 음성 에이전트를 구축하는 데 필요한 강력한 도구가 될 것으로 기대됩니다.
MAI-Voice-2는 미세한 감정 제어와 여러 언어에 걸쳐 일관된 음성 정체성을 유지하는 것이 특징입니다. 현재 애저 AI 파운드리(Azure AI Foundry)를 통해 백만 자당 22달러의 가격으로 이용할 수 있으며, 비주얼 스튜디오 코드(VSCode), 다이내믹스 365 콘택트 센터(Dynamics 365 Contact Center), 팀즈(Teams) 등 마이크로소프트의 다양한 제품 및 서비스에 통합될 예정입니다. 이는 오픈AI(OpenAI)의 실시간 API(Realtime API) 대비 합리적인 가격으로 프로덕션 수준의 자연스러운 음성(prosody)을 필요로 하는 개발자들에게 매력적인 대안이 될 것입니다.
이번 MAI-Voice-2 출시는 AI 음성 기술 시장에 중요한 변화를 가져올 것으로 보입니다. 특히 다국어 지원과 정교한 음성 복제 기능은 글로벌 시장을 겨냥하는 서비스 개발에 큰 이점을 제공할 것입니다. 고객 서비스, 교육 콘텐츠, 오디오북 제작 등 다양한 분야에서 개인화되고 몰입감 있는 사용자 경험을 제공하는 데 기여할 수 있으며, 개발자들은 더욱 효율적으로 고품질의 음성 기반 애플리케이션을 구현할 수 있게 될 것입니다.