인공지능(AI)의 수학적 추론(mathematical reasoning) 능력이 크게 발전했지만, 실제 인간의 협력적 수학 연구 토론을 이해하는 데는 아직 갈 길이 멀다는 연구 결과가 나왔습니다. MIT 연구진이 공개한 '크라우드매스(CrowdMath)' 데이터셋은 이러한 격차를 명확히 보여주며, 현재 대규모 언어모델(LLM)이 해결해야 할 새로운 과제를 제시합니다.
크라우드매스 데이터셋은 MIT PRIMES-Art of Problem Solving (AoPS) 크라우드매스 프로그램(2016-2025)에서 진행된 164개의 실제 수학 연구 토론 기록을 전문가가 주석(annotation)한 것입니다. 이 토론들은 여러 참가자가 부분적인 논증을 제시하고, 기존 단계의 오류를 찾아내며, 점진적으로 증명(proof)을 완성해나가는 과정을 담고 있습니다. 각 게시물은 부분적 진전, 증명 완성, 오류 추론, 오류 식별 등 진화하는 해결 과정에서의 기능적 역할(functional role)에 따라 분류되어 있습니다. 연구팀은 이 데이터셋을 활용해 최신 LLM 6종을 평가했으며, 모델들은 다음 게시물 예측에서는 83~88%의 정확도를 보였지만, 개별 기여의 기능적 중요성을 식별하는 데는 최고 모델이 0.42의 매크로-F1 점수를 기록하는 등 어려움을 겪었습니다.
이는 LLM이 잘 정의된 수학 문제의 답을 찾거나 단계별 풀이를 생성하는 능력과, 여러 사람이 함께 미지의 문제를 탐색하며 지식을 구성해나가는 복잡한 과정을 이해하는 능력 사이에 큰 차이가 있음을 시사합니다. 즉, AI가 단순히 정답을 맞히는 것을 넘어, 인간의 협력적 사고 과정과 그 속에서 발생하는 미묘한 상호작용을 파악하고 기여하는 수준으로 발전하기 위해서는 새로운 접근 방식과 데이터셋이 필요하다는 의미입니다. 이러한 연구는 미래 AI가 단순한 도구를 넘어, 인간의 창의적 문제 해결 과정에 더욱 깊이 통합되는 방향으로 나아가는 데 중요한 이정표가 될 것입니다.