최근 아디티야 스리니바산(Adithya Srinivasan)과 데베쉬 파라기리(Devesh Paragiri) 연구팀이 발표한 논문에 따르면, 과학적 연구를 자동화하는 AI 에이전트(autoresearch agents)가 후보를 평가하고 선택할 때 사용하는 단일 집계 지표(aggregate metric)가 심각한 오류를 초래할 수 있다고 지적했습니다. 이 지표는 여러 이질적인 영역이나 그룹의 데이터를 종합하여 하나의 숫자로 줄인 것인데, 과학적 타당성이 이러한 개별적인 구조 안에 있을 때, 집계 지표는 최적의 후보가 아닌 잘못된 후보를 1위로 선정할 수 있다는 것입니다.
연구팀은 이러한 현상을 '역전(inversion)'이라고 명명하며, 겉으로는 전체 점수가 개선된 것처럼 보여도 실제로는 그 아래의 세부 구조가 뒤집혀 모델에 치명적인 결함을 유발한다고 설명합니다. 이는 후보의 유효성이 다차원적이지만 검증자는 단일 지표에 의존할 때 발생하는 문제로, 특정 도메인에 국한되지 않고 광범위하게 나타날 수 있습니다. 예를 들어, 생태계 인구 통계 모델(Ecosystem Demography model)의 산불 모델링(fire-model task) 사례에서, 최고 점수를 받은 후보가 전반적인 점수에서는 큰 차이가 없었지만, 보호해야 할 북부 지역(boreal regions)을 붕괴시키는 결과를 초래한 반면, 점수가 약간 낮은 다른 후보는 해당 지역을 보존하는 것으로 나타났습니다. 이는 전반적인 점수가 아닌 지역별 행동(per-region behavior)이 핵심적인 차이를 만들었음을 보여줍니다.
이러한 문제는 점수를 최적화하는 에이전트에게 결정을 맡겨서는 안 된다는 것을 의미합니다. 에이전트는 자신의 점수가 잘못되었음을 인지하기 어렵고, 한 번 결정이 내려지면 프롬프트(prompt)를 통해 개입할 기회도 사라지기 때문입니다. 이에 연구팀은 에이전트가 결정을 내린 후, 각 후보의 개별적인 행동을 감사하고 평가하는 외부 제어 루프(external control loop)를 도입하는 '탐색 규율' 프로토콜을 제안했습니다. 이 프로토콜은 에이전트가 수락했을 후보를 강등시키거나, 에이전트가 완료했다고 선언한 작업을 다시 시작할 수 있게 함으로써, 단순히 점수가 아닌 검토 가능한 후보의 효과 증거(candidate-effect evidence)를 기반으로 의사결정을 내리도록 돕습니다. 이는 AI 기반 연구의 신뢰성과 안전성을 높이는 데 중요한 기여를 할 것으로 기대됩니다.