인공지능(AI) 시스템의 미래 예측 능력을 평가하는 것은 매우 중요하지만, 실제 세계에서는 결과 확인이 느리고, 드문 사건을 다루기 어려우며, 가상 시나리오 질문에 대한 채점이 복잡하다는 한계가 있었습니다. 이러한 문제를 해결하기 위해 새로운 시뮬레이션 기반 예측 벤치마크인 'ForecastBench-Sim'이 개발되었습니다. 이는 AI 시스템이 동적인 세계 상태에서 확률적 추론을 얼마나 잘 수행하는지 효과적으로 연구할 수 있는 도구를 제공합니다.
ForecastBench-Sim은 인기 턴제 전략 게임인 '문명(Civilization)' 시리즈를 모델로 한 오픈소스 게임 '프리시브(Freeciv)'의 게임 플레이 데이터를 기반으로 합니다. 예측 모델은 현재 게임 상태를 담은 '세계 보고서'를 받아 미래의 숨겨진 상태에 대한 질문에 답하게 됩니다. 이후 시뮬레이션을 계속 진행하여 예측의 정확도를 즉시 채점합니다. 시뮬레이션 환경 덕분에 연속적이거나 이진적인 예측 질문, 특정 개입이 있을 경우의 조건부 질문, 심지어 드물거나 파괴적인 결과에 대한 질문까지 다양한 유형의 문제를 임의의 시간 범위에 걸쳐 생성하고 해결할 수 있습니다.
이 벤치마크는 실제 세계 예측 벤치마크의 단점을 보완하며, AI가 불확실한 상황에서 얼마나 효과적으로 추론하고 의사결정을 내리는지 심층적으로 분석할 기회를 제공합니다. 연구자들은 이를 통해 AI 모델의 예측 성능을 더 빠르고 효율적으로 검증하고 개선할 수 있게 됩니다. 궁극적으로 이는 더욱 신뢰할 수 있고 강력한 범용 AI 시스템 개발에 기여할 것으로 보입니다.