LLM(대규모 언어모델) 기반의 다중 에이전트(Multi-Agent) 시스템이 소프트웨어 개발의 다양한 단계를 자동화하는 데 활용되고 있지만, 실제 운영 효율성과 자원 소비에 대한 명확한 이해는 부족했습니다. 최근 발표된 'Tokenomics' 연구는 LLM 에이전트 시스템의 토큰 소비 패턴을 정량적으로 분석하며, 소프트웨어 개발 비용의 상당 부분이 초기 코드 생성보다는 코드 리뷰와 검증 과정에 집중된다는 사실을 밝혀냈습니다.
이 연구는 ChatDev 프레임워크와 GPT-5 추론 모델을 활용해 30가지 소프트웨어 개발 태스크를 수행하고, 각 단계별 토큰 소비를 추적했습니다. 그 결과, 코드 리뷰 단계가 전체 토큰 소비의 평균 59.4%를 차지하며 가장 많은 토큰을 사용하는 것으로 확인되었습니다. 이는 코딩 단계(8.6%)나 설계 단계(2.4%)보다 훨씬 높은 수치입니다. 또한, 전체 토큰 소비 중 입력 토큰이 평균 53.9%를 차지했는데, 이는 에이전트들이 협업 과정에서 방대한 컨텍스트를 반복적으로 전달하며 발생하는 '커뮤니케이션 세금(communication tax)'으로 분석됩니다. 코딩 단계는 출력 토큰 비중이 58.0%로 높았지만, 코드 리뷰나 문서화 단계는 입력 토큰 비중이 각각 51.4%, 80.2%로 높아 단계별 토큰 사용 패턴이 뚜렷하게 구분되었습니다.
이러한 분석 결과는 LLM 에이전트 기반 소프트웨어 개발의 비용 구조에 대한 중요한 통찰을 제공합니다. 개발 비용의 대부분이 반복적인 개선 및 검증 과정에서 발생한다는 점은, 향후 에이전트 협업 프로토콜을 설계할 때 토큰 효율성을 최우선으로 고려해야 함을 시사합니다. 특히, 작은 수정에도 방대한 컨텍스트를 주고받는 현재의 비효율적인 검증 방식은 개선이 필요하며, 'human-in-the-loop' 체크포인트를 도입하여 불필요한 반복 루프를 줄이는 전략도 고려해볼 수 있습니다. 궁극적으로는 토큰 효율적인 협업 프로토콜과 표준화된 평가 프레임워크를 통해 다양한 LLM-MA 아키텍처의 효율성을 비교하고 최적화하는 것이 중요해질 것입니다.