멀티모달 대규모 언어모델(MLLM)이 시각과 청각 정보를 통합하여 복잡한 작업을 수행하는 능력은 놀랍지만, 그 내부에서 시청각 신호가 어떻게 흐르고 최종 예측에 영향을 미치는지는 그동안 베일에 싸여 있었습니다. 최근 발표된 연구는 이러한 오디오-비주얼 LLM(AVLLM) 내부의 정보 흐름을 최초로 체계적으로 분석하여, 모델이 소리와 시각을 어떻게 조율하는지에 대한 명확한 그림을 제시했습니다.
이 연구는 AVLLM이 오디오-비주얼 비디오와 여러 개의 교차된 오디오-비주얼 항목이라는 두 가지 입력 구성에서 정보를 처리하는 방식을 추적했습니다. 연구 결과, 오디오-비주얼 비디오의 경우 AVLLM은 기존 비전 언어모델(VLM) 및 비디오 LLM(VideoLLM)에서 확립된 순차적 정보 흐름 경로를 따르며, 각 양식(모달리티)의 기여도는 작업의 의존도에 비례하여 흐른다는 것을 발견했습니다. 반면, 여러 개의 교차된 오디오-비주얼 항목이 주어지는 환경에서는 정보 라우팅이 병렬 스트림으로 전환되는 양상을 보였습니다. 특히 주목할 만한 점은, 오디오-비주얼 및 다른 유형의 토큰들이 일단 정보가 LLM으로 전달되면 폐기되어도 모델의 예측에 미미한 영향만 미치거나 오히려 약간의 개선을 가져올 수 있다는 사실입니다. 이는 여러 모델과 규모(Qwen2.5-Omni, Video-SALMONN2 Plus 3B 및 7B)에 걸쳐 다양한 작업과 데이터셋에서 일관되게 나타났습니다.
이러한 발견은 AVLLM의 내부 작동 방식에 대한 이해를 크게 높여줍니다. 시청각 정보가 네트워크 내에서 어떻게 조직되는지에 대한 첫 번째 명확한 그림을 제공함으로써, 향후 멀티모달 LLM의 해석 가능성(interpretability)을 개선하고, 보다 효율적인 모델을 설계하는 데 중요한 기반을 마련할 것으로 기대됩니다. 특히, 정보 전달 후 토큰을 폐기해도 성능에 영향이 없다는 점은 추론(inference) 효율성을 크게 향상시킬 수 있는 잠재력을 시사하며, 이는 실제 애플리케이션에서 MLLM의 활용도를 높이는 데 기여할 것입니다. 이 연구는 멀티모달 AI 분야의 다음 혁신 물결을 이끌 중요한 초석이 될 것입니다.