최근 발표된 연구에 따르면, 최신 멀티모달 인공지능(AI) 모델들이 실시간 협업 환경에서 인간처럼 능숙하게 소통하고 문제를 해결하는 데 어려움을 겪는 것으로 나타났습니다. 기존 벤치마크들이 개별 역량에 집중했던 것과 달리, 이 연구는 'Keep Talking and Nobody Explodes'라는 협동 비디오 게임을 기반으로 한 새로운 벤치마크 'GPTNT'를 도입하여 AI의 실제 협업 능력을 평가했습니다.
GPTNT 벤치마크는 두 에이전트가 절차적으로 생성되는 폭탄 퍼즐을 제한 시간 안에 해체해야 하는 시나리오를 제시합니다. 한 에이전트는 폭탄을 보고 조작할 수 있지만 해체 지침이 없고, 다른 에이전트는 지침을 가지고 있지만 폭탄을 볼 수 없습니다. 어느 한쪽도 혼자서는 성공할 수 없으며, 효과적이고 효율적인 실시간 비동기 통신이 필수적입니다. 연구팀은 이 벤치마크를 통해 오픈소스 및 클로즈드소스 최신 AI 모델들을 테스트했지만, 인간 플레이어와 달리 단 하나의 폭탄도 실시간으로 해체하지 못했습니다. 통제된 실험을 통해 AI의 상태 추적, 시간 압박 속 효율적인 행동, 모호성 처리, 오류 복구 등 여러 핵심적인 약점이 확인되었습니다.
이 연구 결과는 멀티모달 AI가 복잡하고 역동적인 현실 세계의 협업 과제를 해결하기 위해 아직 갈 길이 멀다는 것을 보여줍니다. 특히 시간 제약, 정보 불균형, 불완전한 의사소통과 같은 실제 협업의 복합적인 조건들을 동시에 처리하는 능력은 AI 발전의 중요한 다음 단계가 될 것입니다. GPTNT는 지속적으로 진화하는 게임 커뮤니티의 모딩(modding) 기능을 활용하여 모델이 개선됨에 따라 벤치마크 자체도 발전할 수 있도록 설계되어, 향후 AI 협업 능력 연구의 중요한 이정표가 될 것으로 기대됩니다.
