최근 발표된 'INFRAMIND' 연구는 대규모 언어모델(LLM) 기반 멀티 에이전트 시스템의 효율성을 극대화할 새로운 프레임워크를 제시합니다. 기존의 멀티 에이전트 오케스트레이션 방식은 태스크와 모델의 특성만을 고려하여 모델을 선택하고 작업을 분배했지만, 실제 GPU 클러스터의 런타임 상태, 즉 인프라의 부하를 간과하는 문제가 있었습니다. 이는 선호하는 모델에 요청이 몰려 대기열이 길어지는 동안 다른 유휴 모델들이 방치되는 자원 비효율을 초래했습니다.
INFRAMIND는 이러한 '인프라 인지(infrastructure-aware)' 기능을 멀티 에이전트 스택 전반에 도입합니다. 실시간 시스템 부하와 남은 예산(budget)을 기반으로 토폴로지(topology)와 역할 선택을 조정하는 '인프라 인지 플래너(infra-aware planner)', 각 에이전트 단계에서 모델별 대기열 깊이, 캐시 활용도, 응답 지연 시간 등을 관찰하여 어떤 모델을 호출할지 결정하는 '인프라 인지 실행기(infra-aware executor)', 그리고 긴급 요청을 우선 처리하도록 모델 대기열을 재정렬하는 '예산 인지 스케줄러(budget-aware scheduler)'로 구성됩니다. 이 시스템은 강화 학습(reinforcement learning)을 통해 품질과 지연 시간의 균형을 자동으로 학습합니다.
INFRAMIND는 5가지 벤치마크 테스트에서 저부하 환경에서는 기존 대비 최대 7.6%p의 정확도 향상과 최대 7배 낮은 지연 시간을 달성했습니다. 특히 고부하 환경에서는 모든 기존 방식이 서비스 수준 목표(SLO) 준수율이 50% 미만으로 떨어지는 반면, INFRAMIND는 최대 99.9%의 SLO 준수율을 유지하며 압도적인 안정성을 보여주었습니다. 이는 멀티 에이전트 시스템이 복잡한 작업을 수행할 때 발생하는 여러 순차적인 모델 호출에서 지연 시간이 누적되는 문제를 해결하여, 사용자 경험을 획기적으로 개선할 수 있음을 의미합니다. 결과적으로 INFRAMIND는 LLM 기반 서비스의 안정성과 효율성을 한 단계 끌어올릴 중요한 발전으로 평가됩니다.