최근 멀티모달 대규모 언어모델(LLM)은 복잡한 추론 작업에서 인상적인 성능을 보여주고 있습니다. 하지만 시각화 도구를 이용해 문제를 외부화하고 그 결과물을 바탕으로 추론하는 과정에서는 성능이 크게 저하되는 경향이 있습니다. 특히 공학 및 과학 분야에서는 분석, 검증, 의사결정을 위해 시각화 도구가 필수적이라는 점에서 이러한 격차는 중요한 문제로 지적됩니다.
이러한 격차를 심층적으로 연구하기 위해 'VAMPS(Visual-Assisted Mathematical Problem Solving)'라는 새로운 벤치마크가 개발되었습니다. VAMPS는 그래프를 활용한 수학 문제 해결에 초점을 맞추며, 이란 대학 입학 시험의 대수 및 미적분 문제에서 발췌한 1,168개의 멀티모달, 이중 언어 객관식 질문-답변 쌍으로 구성됩니다. 이 문제들은 그래프를 그리면 교점, 극값, 점근선 등을 쉽게 파악하여 자연스럽게 해답을 찾을 수 있도록 설계되었습니다. 연구 결과, 놀랍게도 다양한 모델에서 시각화 도구를 활용한 문제 해결 방식보다 직접 분석적으로 문제를 푸는 방식이 더 나은 성능을 보였습니다. 이는 그래프를 그리는 것이 자연스러운 해결 전략인 문제에서도 마찬가지였습니다.
이번 연구는 단순히 고정된 시각 입력에 대한 추론을 평가하는 기존 벤치마크를 넘어, 모델이 유용한 그래프를 생성하고 그 시각화 결과에 기반하여 답을 도출하는 능력을 진단한다는 점에서 의미가 큽니다. VAMPS 벤치마크는 AI가 시각적 보조 자료를 활용하여 문제를 해결하는 과정에서 발생하는 근본적인 한계를 드러내며, 향후 멀티모달 LLM의 시각적 추론 및 도구 활용 능력 개선을 위한 중요한 방향성을 제시합니다. 실제 과학 및 공학 분야에서 시각화가 핵심적인 역할을 하는 만큼, AI가 이러한 격차를 극복하고 더욱 신뢰할 수 있는 문제 해결 능력을 갖추도록 발전해야 할 것입니다.