Search Discipline for Long-Horizon Research Agents

최근 연구에 따르면, 자동 연구 에이전트(autoresearch agents)가 과학적 후보를 평가할 때 사용하는 단일 집계 지표가 실제로는 잘못된 결정을 내릴 수 있습니다. 이 지표가 전체적으로 개선되어 보여도, 그 아래의 세부 구조에서는 문제가 발생하여 모델을 손상시킬 수 있다는 경고입니다. 연구팀은 이러한 문제를 해결하기 위해 외부 제어 루프를 통한 '탐색 규율(search discipline)' 프로토콜을 제안했습니다.

2일 전·2026.06.11·읽기 1분·Adithya Srinivasan, Devesh Paragiri

최근 아디티야 스리니바산(Adithya Srinivasan)과 데베쉬 파라기리(Devesh Paragiri) 연구팀이 발표한 논문에 따르면, 과학적 연구를 자동화하는 AI 에이전트(autoresearch agents)가 후보를 평가하고 선택할 때 사용하는 단일 집계 지표(aggregate metric)가 심각한 오류를 초래할 수 있다고 지적했습니다. 이 지표는 여러 이질적인 영역이나 그룹의 데이터를 종합하여 하나의 숫자로 줄인 것인데, 과학적 타당성이 이러한 개별적인 구조 안에 있을 때, 집계 지표는 최적의 후보가 아닌 잘못된 후보를 1위로 선정할 수 있다는 것입니다.

연구팀은 이러한 현상을 '역전(inversion)'이라고 명명하며, 겉으로는 전체 점수가 개선된 것처럼 보여도 실제로는 그 아래의 세부 구조가 뒤집혀 모델에 치명적인 결함을 유발한다고 설명합니다. 이는 후보의 유효성이 다차원적이지만 검증자는 단일 지표에 의존할 때 발생하는 문제로, 특정 도메인에 국한되지 않고 광범위하게 나타날 수 있습니다. 예를 들어, 생태계 인구 통계 모델(Ecosystem Demography model)의 산불 모델링(fire-model task) 사례에서, 최고 점수를 받은 후보가 전반적인 점수에서는 큰 차이가 없었지만, 보호해야 할 북부 지역(boreal regions)을 붕괴시키는 결과를 초래한 반면, 점수가 약간 낮은 다른 후보는 해당 지역을 보존하는 것으로 나타났습니다. 이는 전반적인 점수가 아닌 지역별 행동(per-region behavior)이 핵심적인 차이를 만들었음을 보여줍니다.

이러한 문제는 점수를 최적화하는 에이전트에게 결정을 맡겨서는 안 된다는 것을 의미합니다. 에이전트는 자신의 점수가 잘못되었음을 인지하기 어렵고, 한 번 결정이 내려지면 프롬프트(prompt)를 통해 개입할 기회도 사라지기 때문입니다. 이에 연구팀은 에이전트가 결정을 내린 후, 각 후보의 개별적인 행동을 감사하고 평가하는 외부 제어 루프(external control loop)를 도입하는 '탐색 규율' 프로토콜을 제안했습니다. 이 프로토콜은 에이전트가 수락했을 후보를 강등시키거나, 에이전트가 완료했다고 선언한 작업을 다시 시작할 수 있게 함으로써, 단순히 점수가 아닌 검토 가능한 후보의 효과 증거(candidate-effect evidence)를 기반으로 의사결정을 내리도록 돕습니다. 이는 AI 기반 연구의 신뢰성과 안전성을 높이는 데 중요한 기여를 할 것으로 기대됩니다.