최근 macOS용 앱 '오디오탭(AudioTap)'이 출시되어 통화 녹음 및 인공지능(AI) 기반 분석 기능을 로컬 환경에서 제공하며 사용자들의 관심을 모으고 있습니다. 이 앱은 통화 중 발생하는 오디오 입출력을 모두 캡처하고, 이를 텍스트로 변환(전사)하며, 대화 참여자를 자동으로 구분(화자 분리)하는 기능을 지원합니다. 모든 과정이 사용자의 맥(Mac) 기기 내에서 이루어져 클라우드 업로드 없이 개인 정보 보호를 강화한 것이 특징입니다.
오디오탭은 애플 실리콘(M1 이상) 기반 맥에서만 작동하며, 핵심 기술로는 오픈AI의 위스퍼 라지-v3(Whisper large-v3) 모델을 활용한 위스퍼킷(WhisperKit)과 위스피커(WeSpeaker)를 사용합니다. 이를 통해 약 100개 언어를 지원하며, 특히 영어 외 스페인어, 포르투갈어, 프랑스어, 독일어, 이탈리아어, 일본어, 중국어 등 주요 언어에서 높은 정확도를 보입니다. 시스템 오디오와 마이크 입력을 스테레오 WAV 파일로 녹음한 후, 사용자가 원할 경우 전사 및 화자 분리된 텍스트 파일을 생성하여 로컬 폴더에 저장합니다. 39달러의 일회성 구매 방식으로 제공되며, 구독료 없이 1.x 버전의 모든 업데이트를 포함합니다.
이러한 로컬 처리 방식은 민감한 비즈니스 통화나 개인적인 대화 내용을 외부 서버로 전송하는 것에 대한 우려를 해소해 줍니다. 특히 비영어권 사용자가 복잡한 악센트나 발음을 가진 상대방과의 통화 내용을 정확히 이해하고 다시 확인하는 데 큰 도움을 줄 수 있습니다. 또한, 인터넷 연결 없이도 모든 기능을 사용할 수 있어 이동 중이나 네트워크 환경이 불안정한 상황에서도 유용합니다. 오디오탭은 단순한 통화 녹음 도구를 넘어, AI 기술을 활용해 비즈니스 생산성과 개인의 커뮤니케이션 효율을 높이는 새로운 가능성을 제시하고 있습니다.