WhissleAI가 영상 파일을 서버에 직접 업로드하지 않고도 실시간으로 거짓말을 탐지할 수 있는 AI 파이프라인을 공개했습니다. 이 기술은 법정 영상 클립을 분석하여 진실 혹은 기만을 예측하는 시스템으로, 텍스트(음성-텍스트 변환 및 메타데이터), 시각(표정, 시선, 제스처), 음성(억양, 음질)의 세 가지 핵심 요소를 융합해 판단합니다. 특히, 사용자 영상이 외부 서버로 전송되지 않고 로컬에서 처리될 수 있도록 설계되어 개인 정보 보호 측면에서도 주목할 만합니다.
이 시스템은 텍스트와 시각 정보 추출을 위해 Whissle 게이트웨이(Whissle gateway)를 활용하며, 음성 운율(prosody) 분석은 로컬에서 독립적으로 수행됩니다. 중요한 점은 모델이 특정 화자의 특징을 암기하여 정확도가 부풀려지는 것을 방지하기 위해 '화자 제외 교차 검증(Leave-One-Speaker-Out, LOSO)' 방식을 채택했다는 것입니다. 이는 미지의 화자에 대한 일반화 성능을 정직하게 평가하기 위한 핵심 방법론으로, 121개의 실제 법정 영상 클립(61개 기만, 60개 진실)으로 구성된 데이터셋을 사용해 검증되었습니다. WhissleAI는 이 파이프라인을 오픈소스로 공개하여 개발자들이 직접 구축하고 실험할 수 있도록 했습니다.
이러한 실시간 거짓말 탐지 기술은 법정 증언의 신뢰도를 높이는 데 기여할 수 있으며, 더 나아가 면접, 고객 서비스, 보안 등 다양한 분야에서 사람 간의 커뮤니케이션을 분석하고 이해하는 데 혁신적인 도구가 될 잠재력을 가집니다. 특히, 영상 업로드 없이 로컬에서 처리 가능하다는 점은 민감한 정보를 다루는 산업에서 프라이버시 침해 우려를 줄여 기술 도입의 장벽을 낮출 수 있습니다. 이는 AI가 단순한 정보 처리 도구를 넘어 인간 상호작용의 복잡한 층위를 해석하는 데 중요한 진전을 이루고 있음을 보여줍니다.