인공지능(AI) 모델의 성능을 측정하는 벤치마크(benchmark)가 특정 정확도 수준에 도달하면 더 이상 유용하지 않다고 여겨져 새로운 벤치마크로 교체되는 것이 일반적이었습니다. 하지만 최근 arXiv에 발표된 '벤치마크 포화 이후의 삶: CORE-Bench 사례 연구' 논문은 이러한 접근 방식이 정확도에만 지나치게 집중하여 AI 에이전트 성능의 다른 중요한 측면들을 놓치고 있다고 지적합니다. 이 연구는 벤치마크가 포화 상태에 이르더라도 여전히 유의미한 통찰을 제공할 수 있음을 보여주며, AI 평가 패러다임의 전환을 제안합니다.
연구팀은 과학 코드의 계산 재현성(computational reproducibility)을 평가하는 CORE-Bench Hard 벤치마크를 사례 연구로 활용했습니다. 이들은 정확도 포화 이후에도 구성 타당성(construct validity) 문제(예: 지름길 학습), 분포 외 일반화(out-of-distribution generalizability), 효율성(efficiency), 신뢰성(reliability), 모델(model)과 스캐폴드(scaffold)의 상대적 중요성, 그리고 인간-AI 협업(human-agent collaboration)을 통한 성능 향상이라는 6가지 핵심 차원을 측정했습니다. 특히, CORE-Bench v1.1이라는 개선된 벤치마크와 CORE-Bench OOD라는 분포 외 태스크 스위트를 도입하여, 기존 벤치마크로는 파악하기 어려웠던 에이전트의 취약점을 밝혀냈습니다. 또한, 인간-AI 협업 실험에서는 AI의 도움으로 작업 속도가 약 두 배 빨라지는 통계적으로 유의미한 결과를 확인했습니다.
이 연구는 AI 모델의 진정한 가치를 평가하기 위해서는 단순히 높은 정확도뿐만 아니라, 실제 환경에서의 견고성, 효율성, 그리고 인간과의 상호작용 능력 등 다각적인 관점에서 접근해야 함을 시사합니다. 이는 AI 개발자와 연구자들에게 보다 포괄적인 평가 기준을 제시하며, 사용자들에게는 AI 시스템의 한계와 잠재력을 더 깊이 이해할 수 있는 기회를 제공합니다. 궁극적으로 이러한 다차원적 평가는 더욱 신뢰할 수 있고 유용한 AI 시스템을 구축하는 데 기여할 것입니다.
