최근 발표된 연구 논문 '에보플럭스(Evoflux)'는 소형 언어모델(LLM)을 기반으로 하는 AI 에이전트의 도구 활용 능력을 획기적으로 개선하는 새로운 접근 방식을 제시했습니다. 기존 소형 에이전트는 비용과 지연 시간, 배포 위험을 줄이는 장점이 있었지만, 복잡한 도구 사용 시나리오에서 워크플로우를 제대로 계획하고 실행하는 데 어려움을 겪었습니다. 에보플럭스는 이러한 문제를 해결하며 소형 에이전트의 실용성을 크게 향상시킬 것으로 기대됩니다.
대규모 언어모델(LLM)에 비해 크기가 작은 소형 모델은 도구 카탈로그에서 필요한 도구를 찾아내고, 스키마를 만족시키며, 중간 결과물 간의 의존성을 유지하고, 최종 응답을 실행된 증거에 기반하여 생성하는 데 취약했습니다. 기존 방식으로는 그럴듯해 보이는 워크플로우를 생성해도 도구 해석, 매개변수 유효성 검사, 의존성 추적, 실제 실행 단계에서 실패하는 경우가 많았습니다. 연구팀은 이러한 실패 모드가 소규모 데이터셋을 통한 미세조정(fine-tuning)으로는 제대로 해결되기 어렵다고 지적하며, 에보플럭스를 통해 추론 시점에 실행 가능한 도구 워크플로우를 진화시키는 방법을 제안했습니다. 이는 구조화된 편집, 실행 피드백, 적응형 강도 조절, 메타 가이드 재설계, 다양성 가지치기(diversity pruning) 등의 과정을 거쳐 워크플로우 그래프를 수정하고 개선하는 방식입니다.
에보플럭스를 실제 MCP-벤치(MCP-Bench) 태스크에 적용한 결과, 라이브 MCP 서버와 250개의 도구를 사용하는 환경에서 소형 플래너(planner)의 실행 가능성(execution feasibility)이 기존 약 3%에서 17~24%로 크게 증가했습니다. 이는 동일한 검색 기반 데이터로 미세조정(SFT) 및 SFT+DPO를 적용했을 때 성능이 비슷하거나 오히려 낮아지는 것과 대조적입니다. 또한, 리액트(ReAct) 방식이 더 높은 최고 성능을 보이기도 했지만, 에보플럭스는 훨씬 낮은 변동성과 토큰 비용으로 더 안정적인 결과를 보여주었습니다. 이 연구 결과는 제한된 학습 데이터(teacher-trace budgets) 환경에서 실행 기반 검색(execution-grounded search) 방식이 훨씬 더 신뢰할 수 있음을 입증하며, 소형 AI 에이전트가 실제 환경에서 다양한 도구를 활용하여 복잡한 작업을 수행할 수 있는 가능성을 열었습니다.