마이네드 AI(Myned AI)가 음성 데이터를 기반으로 실시간 얼굴 애니메이션을 생성하는 '오디오2페이스(audio2face)' 기술의 접근성을 크게 높일 수 있는 공개 데이터셋을 발표했습니다. 이 데이터셋은 기존에 고성능 GPU에서만 가능했던 복잡한 오디오2페이스 모델의 기능을 저사양 CPU 환경에서도 구현할 수 있도록 '지식 증류(knowledge distillation)' 과정을 지원합니다. 이는 AI 모델의 경량화를 통해 더 많은 개발자와 사용자가 이 기술을 활용할 수 있게 하는 중요한 진전입니다.
이번에 공개된 데이터셋은 '교사 모델(teacher model)'의 역할을 하는 GPU 기반 오디오2페이스 모델이 생성한 얼굴 블렌드셰이프(blendshape) 데이터를 포함합니다. 블렌드셰이프는 3D 모델의 얼굴 표정을 제어하는 핵심 요소로, 이 데이터셋은 음성 입력에 따른 다양한 감정(emotion)과 입 모양(ARKit blendshapes) 변화를 정밀하게 기록하고 있습니다. 총 14,100개의 행으로 구성된 이 데이터셋은 영어 음성 데이터를 기반으로 하며, '감정 레이블(emotion_label)'과 '강도(intensity)' 같은 메타데이터를 함께 제공하여 '학생 모델(student model)'이 교사 모델의 복잡한 추론(inference) 과정을 학습하도록 돕습니다.
이 데이터셋의 등장은 실시간 얼굴 애니메이션 기술의 대중화에 크게 기여할 것으로 보입니다. 기존에는 고가의 GPU 장비가 필수적이었기 때문에 접근성이 제한적이었으나, 이제는 일반적인 CPU 환경에서도 유사한 성능의 모델을 구동할 수 있게 되어 비용 효율적인 솔루션 개발이 가능해집니다. 이는 가상 비서, 게임 캐릭터, 메타버스 아바타 등 다양한 분야에서 더욱 자연스럽고 몰입감 있는 사용자 경험을 제공할 수 있는 기반을 마련하며, 특히 리소스가 제한적인 모바일 환경에서의 활용 가능성을 넓힐 것입니다.