인공지능(AI) 에이전트가 다양한 출처의 정보를 검색하고 추론하여 결론을 종합하는 능력이 빠르게 발전하고 있지만, 과연 이들이 과학 분야, 특히 의료와 같이 중요한 의사결정이 필요한 영역에서 신뢰할 만한 결론을 도출할 수 있을지에 대한 의문이 제기되었습니다. 최근 arXiv에 발표된 연구 논문은 이러한 AI 에이전트의 과학적 결론 종합 능력을 평가하기 위한 대규모 벤치마크 'SciConBench'를 공개하며, 현재 AI의 한계를 명확히 보여주었습니다.
이 연구팀은 9,110개의 질문과 체계적인 문헌 검토(systematic review)를 통해 전문가가 작성한 결론을 포함하는 SciConBench를 구축했습니다. 이 벤치마크는 결론을 원자적 사실(atomic facts)로 분해하고, 사실적 정확도(factual precision)와 재현율(recall)을 측정하여 AI의 결론 종합 능력을 평가합니다. 특히, 데이터 유출(data leakage)을 방지하기 위해 '클린룸' 평가 환경인 'SciConHarness'를 도입하여, AI 에이전트가 통제된 웹 상호작용만으로 정보를 얻도록 했습니다. 8개의 최신 모델과 심층 연구 에이전트를 평가한 결과, 클린룸 환경에서 최고의 에이전트조차 사실적 F1 점수가 0.337에 불과해 사실적 품질이 여전히 낮음을 확인했습니다. 이는 데이터 유출이 없는 환경에서 AI의 실제 성능이 기존 예상보다 훨씬 낮을 수 있음을 시사합니다.
이번 연구 결과는 구글 AI 오버뷰(Google AI Overview)나 오픈에비던스(OpenEvidence)와 같은 소비자용 AI 에이전트들도 불완전하거나 때로는 모순된 결론을 자주 생성한다는 점을 밝혀냈습니다. 이는 AI가 생성하는 과학적 결론을 맹목적으로 신뢰하기 어렵다는 중요한 경고입니다. 따라서 신뢰할 수 있는 과학적 결론을 종합하는 AI 에이전트 개발은 여전히 해결해야 할 과제로 남아 있으며, 데이터 유출을 방지하는 클린룸 평가 방식이 개방형 도메인 AI 에이전트의 실제 능력을 정확히 측정하는 데 필수적이라는 점을 강조합니다. 이는 AI 기술이 실제 고위험 분야에 적용되기 전에 넘어야 할 중요한 기술적, 윤리적 허들을 보여줍니다.