Can Generalist Agents Automate Data Curation?

AI 모델 개발에서 가장 중요하면서도 노동 집약적인 부분 중 하나는 바로 훈련 데이터 큐레이션(data curation)입니다. 연구자들은 시끄러운 벤치마크 피드백에 맞춰 데이터 정책을 반복적으로 제안하고, 구현하고, 평가하고, 수정하는 과정을 거쳐야 합니다. 최근 발표된 연구는 이러한 데이터 큐레이션 루프를 범용 코딩 에이전트(generalist coding agents)가 자동화할 수 있는지에 대한 질문을 던지며, 긍정적인 가능성을 제시했습니다.

페이양 강(Feiyang Kang) 외 7명의 연구진은 에이전트 중심 벤치마크인 '큐레이션-벤치(Curation-Bench)'를 도입했습니다. 이 벤치마크는 모델, 훈련 방식, 평가 도구를 고정하고, 에이전트에게 명령줄(command-line) 접근 권한을 부여하여 데이터를 검사하고, 정책을 구현하며, 고정된 훈련/평가 파이프라인에 제출하고 수정할 수 있도록 합니다. 비전-언어(vision-language) 명령어 미세조정(instruction-tuning) 환경에서, 별도의 설정 없이도 에이전트는 10번의 반복(iteration) 만에 강력한 데이터 선택 기준에 도달했습니다. 하지만 궤적 분석(trajectory analysis) 결과, 에이전트가 새로운 정책 계열을 탐색하기보다는 기존 정책의 변형을 미세조정하는 경향을 보이는 '실행-연구 격차(execution-research gap)'가 발견되었습니다. 이에 연구팀은 각 반복마다 이전 방법을 인용하고, 인스턴스화하며, 적용하도록 요구하는 스캐폴드(scaffold)를 적용하여 에이전트가 방법론 기반 탐색으로 전환하도록 유도했습니다. 그 결과, 스캐폴딩된 에이전트는 사람의 개입 없이도 강력한 기존 기준을 능가하는 데이터 선택 정책을 자율적으로 구성했으며, 데이터 예산은 10분의 1 수준에 불과했습니다. 이는 현재 에이전트가 큐레이션 루프를 실행할 수 있지만, 신뢰할 수 있는 데이터 연구를 위해서는 개방형 프롬프트(open-ended prompting)만으로는 부족하며 스캐폴딩된 방법론 적응이 필요함을 시사합니다.

이번 연구는 AI 개발의 병목 현상 중 하나인 데이터 큐레이션 과정을 자동화할 수 있는 실질적인 가능성을 보여주었다는 점에서 큰 의미를 가집니다. 특히, 스캐폴딩(scaffolding)을 통해 에이전트의 탐색 능력을 향상시키고, 더 적은 데이터로도 우수한 성능을 달성할 수 있음을 입증한 것은 AI 모델 학습의 효율성과 비용 절감에 기여할 수 있습니다. 이는 향후 AI 모델 개발의 속도를 가속화하고, 더 적은 자원으로도 고품질의 AI를 만들 수 있는 기반을 마련할 것으로 기대됩니다. 또한, 연구에서 사용된 코드와 벤치마크는 오픈 소스로 공개되어 있어, 관련 연구 및 개발에 더욱 박차를 가할 수 있을 것입니다.