최근 인공지능(AI) 에이전트 분야는 단일 에이전트가 아닌 여러 에이전트가 협력하는 다중 에이전트 시스템으로 빠르게 전환되고 있습니다. 이러한 변화 속에서 에이전트 간의 효율적인 작업 분해 및 협업을 조율하는 '오케스트레이션(orchestration)' 기술의 중요성이 부각되고 있습니다. 특히 텍스트, 이미지, 오디오, 비디오 등 다양한 형태의 정보(모달리티)가 혼재하는 복잡한 실제 환경에서는 이 모든 양식을 통합적으로 이해하고 조정하는 '옴니모달(omnimodal) 에이전트 오케스트레이션'이 필수적입니다.
아카이브(arXiv)에 공개된 논문 '오케스트라-o1(Orchestra-o1)'은 이러한 옴니모달 환경에 최적화된 에이전트 오케스트레이션 프레임워크를 제안합니다. 오케스트라-o1은 양식 인지(modality-aware) 작업 분해, 온라인 서브 에이전트 전문화, 병렬 서브 태스크 실행을 가능하게 하는 통합 오케스트레이션 메커니즘을 도입했습니다. 이 확장 가능한 설계 덕분에 에이전트 시스템은 이질적인 정보원을 포함하는 복잡한 실제 작업을 효과적으로 처리할 수 있으며, 옴니가이아(OmniGAIA) 벤치마크에서 기존 최고 성능 대비 10.3% 더 높은 정확도를 달성했습니다. 또한, 오케스트라-o1은 효율적인 에이전트 강화 학습(RL) 접근 방식인 '결정 정렬 그룹 상대 정책 최적화(DA-GRPO)'를 통해 '오케스트라-o1-8B' 모델을 훈련하여, 모든 기존 오픈소스 옴니모달 에이전트 중 최고 성능을 기록했습니다.
이 연구는 대규모 언어모델(LLM) 기반 에이전트가 현실 세계의 복잡한 문제를 해결하는 데 한 걸음 더 나아갔음을 보여줍니다. 다양한 모달리티를 유연하게 처리하고 에이전트 간 협업을 최적화하는 오케스트라-o1의 접근 방식은 자율 에이전트 시스템의 실용성을 크게 높일 잠재력을 가집니다. 이는 미래의 AI가 단순히 정보를 처리하는 것을 넘어, 인간처럼 보고 듣고 이해하며 복잡한 상황에 능동적으로 대처하는 데 중요한 기반 기술이 될 것입니다. 특히 로봇 공학, 자율 주행, 지능형 비서 등 여러 양식의 정보 통합이 필수적인 분야에서 혁신적인 발전을 이끌 것으로 기대됩니다.