머신러닝(ML) 엔지니어링 에이전트들이 새로운 문제에 직면할 때마다 이미 알려진 기술들을 처음부터 다시 학습하는 비효율이 지적되어 왔습니다. 마치 매번 새로운 경연대회에 나갈 때마다 모든 것을 처음부터 다시 배우는 것과 같습니다. 이러한 컴퓨팅 자원 낭비를 해결하기 위해, 연구진은 계층적 멀티 에이전트 시스템인 HASTE(Hierarchical Accumulation of Skills for Transfer-Efficient ML Engineering)를 제안했습니다. HASTE는 에이전트가 과거 경험을 효과적으로 축적하고 새로운 문제에 적용할 수 있도록 돕습니다.
HASTE는 지식을 세 가지 범위 계층(글로벌, 도메인, 특정 경쟁)으로 조직하며, 각 계층은 해당 에이전트 수준과 연결됩니다. 오케스트레이터(orchestrator)는 도메인 전문가들을 조율하고, 대규모 언어모델(LLM) 기반의 추상화를 통해 계층 간 학습 전이를 촉진합니다. 159개의 기술 목록을 8개 경쟁에 걸쳐 일정하게 유지한 통제된 실험에서, 계층적 로딩 방식은 100%의 메달 획득률을 달성한 반면, 평면적 로딩 방식은 62.5%에 그쳤습니다. 이는 기술을 전혀 로딩하지 않은 경우와 동일한 결과이며, 출력 토큰도 2배 더 많이 소비했습니다. 전체 MLE-Bench Lite 벤치마크(22개 캐글(Kaggle) 경쟁)에서는 HASTE가 클로드 소네트 4.6(Claude Sonnet 4.6)을 사용하여 경쟁당 12시간 만에 77.3%의 메달 획득률을 기록했습니다. 특히, 이전에 학습된 기술을 재사용하는 웜 스타트(warm-start) 방식은 콜드 스타트(cold-start) 방식에 비해 개선 반복 횟수를 52% 줄였고, 에이전트가 제안한 변경 사항 중 유지되는 비율도 42%에서 85%로 크게 증가했습니다.
이러한 결과는 ML 엔지니어링 에이전트에서 지식의 효율적인 조직화가 모델의 성능이나 컴퓨팅 예산을 부분적으로 대체할 수 있음을 시사합니다. 즉, 단순히 더 강력한 모델이나 더 많은 컴퓨팅 자원을 투입하는 것보다, 에이전트가 과거의 경험과 지식을 체계적으로 관리하고 재활용하는 능력이 문제 해결 효율성을 크게 높일 수 있다는 의미입니다. 이는 향후 AI 에이전트 개발 방향에 중요한 시사점을 제공하며, 제한된 자원으로도 고성능을 달성할 수 있는 가능성을 열어줍니다. 장기적으로는 AI가 인간처럼 다양한 경험을 통해 학습하고 지식을 축적하여 더욱 범용적인 문제 해결 능력을 갖추는 데 기여할 것으로 기대됩니다.