최근 WhissleAI가 만다린어(Mandarin Chinese) 음성을 텍스트로 변환하는 동시에 화자의 메타데이터를 감지하는 혁신적인 음성-텍스트(STT) 모델 'STT-meta-ZH-150m'을 공개했습니다. 이 모델은 1억 5천만 개에 달하는 파라미터(parameter)를 가지며, 음성 인식(ASR)과 화자 속성 분류를 단일 패스(single forward pass)로 처리하는 듀얼 헤드(Dual-Head) 아키텍처를 채택해 효율성을 극대화했습니다.
이 모델은 엔비디아(NVIDIA)의 시트리넷-1024(Citrinet-1024)를 기반으로 구축되었으며, 언어별 병목 어댑터(bottleneck adapter)와 후행 태그 분류기 헤드(trailing tag classifier head)를 추가했습니다. 특히 60시간 분량의 메타 주석(meta-annotated)이 달린 만다린어 음성 데이터를 활용해 미세조정(fine-tuning)되었으며, 텍스트 변환의 단어 오류율(WER)은 19.22%, 태그 분류 정확도는 94.2%에 달합니다. 나이(AGE), 성별(GENDER), 방언(DIALECT)뿐만 아니라, 인명(ENTITY_PERSON_NAME)과 같은 개체명 인식(entity recognition)까지 텍스트 변환 과정에 포함하여 출력할 수 있는 것이 특징입니다.
이러한 듀얼 헤드 모델은 음성 데이터를 처리하는 다양한 애플리케이션에서 큰 파급력을 가질 것으로 예상됩니다. 예를 들어, 콜센터의 고객 응대 분석, 음성 기반 사용자 인터페이스(VUI)의 개인화, 그리고 미디어 콘텐츠의 자동 자막 및 메타데이터 생성 등에서 활용될 수 있습니다. 특히 만다린어처럼 방언이 다양하고 화자 특성이 중요한 언어에서는 이러한 통합 모델이 더욱 강력한 가치를 제공하며, 개발자들은 온닉스(ONNX) 형식으로 제공되는 모델을 활용해 프로덕션 환경에서 효율적인 추론을 구현할 수 있습니다.