최근 아카이브(arXiv)에 발표된 연구에 따르면, 인공지능(AI) 에이전트가 신경과학 분야의 데이터 분석 파이프라인에서 소프트웨어 개발 병목 현상을 자동화할 유망한 길을 제시했습니다. 연구진은 초파리 광유전학(optogenetics) 데이터-발견 파이프라인에 일반적인 코딩 에이전트를 적용하여, 과학자들이 수일에서 수개월이 걸리던 작업을 AI가 처리할 수 있는지 실증적으로 연구했습니다.
이 연구는 기존 벤치마크보다 훨씬 큰 규모의 작업과 방대한 데이터셋을 사용했으며, 도메인 전문가의 기준에 맞춰 평가를 진행했습니다. 그 결과, AI 에이전트가 파이프라인의 여러 개별 단계를 성공적으로 해결할 수 있음을 확인했습니다. 이는 단계별 자동화가 실현 가능하다는 것을 시사합니다. 하지만 에이전트들은 사전 정의된 반복 기준이 없고 과학적 판단을 통해 해결책을 평가해야 할 때 가장 큰 어려움을 겪었습니다. 또한, 중간 결과물을 시각적으로 검사하려 시도했지만, 이를 제대로 해석하거나 적절히 행동하는 데는 실패했습니다. 계산 자원 관리나 대규모 미공개 데이터(held-out data)에 대한 일반화 능력 등 기존 벤치마크에는 없는 새로운 도전 과제들도 발견되었습니다.
이번 연구는 AI 에이전트가 과학 연구의 효율성을 크게 높일 잠재력을 보여주면서도, 복잡한 과학적 추론과 판단이 필요한 영역에서는 아직 한계가 있음을 명확히 했습니다. 종단 간 파이프라인 전체를 정확하게 해결하는 것은 현재 AI 에이전트의 능력을 넘어선다는 결론입니다. 이는 AI가 과학 연구에 더 깊이 통합되기 위해서는 단순 코딩을 넘어, 인간의 과학적 직관과 해석 능력을 모방하거나 보완할 수 있는 방향으로 발전해야 함을 시사합니다. 앞으로 AI 에이전트가 과학적 문제 해결에 더욱 기여하기 위해서는 개방형 문제에 대한 엄격한 평가 기준과 과학적 태스크 구성 원칙을 확립하는 것이 중요해질 것입니다.