한 개발자가 앤트로픽(Anthropic)의 대규모 언어모델(LLM) 클로드(Claude)를 활용한 코딩 에이전트 시스템 '플릿(fleet)'을 대규모로 운영하면서 얻은 핵심 교훈들을 공유해 주목받고 있습니다. 이 시스템은 파이썬(Python) 오케스트레이터 기반으로 클로드, 아지(agy), 코덱스(Codex) 등 다양한 코딩 모델을 동시에 10~15개까지 실행할 수 있도록 설계되었으며, 최근에는 에이전트 생명주기 관리를 위한 사용자 인터페이스(UI)도 추가되었습니다.
개발자는 대규모 운영 시 토큰(token) 소모가 매우 빠르다는 점에 착안, 효율성을 극대화하기 위한 방안을 모색했습니다. 그 결과, CLAUDE.md 파일은 불필요한 설명을 무조건 로드하여 토큰을 낭비하고 모델을 혼란스럽게 만드는 '끔찍한 추상화'라고 지적했습니다. 스킬(skills) 역시 필요한 경우에만 전체 텍스트를 로드하는 방식이지만, 수많은 스킬을 관리하기에는 여전히 비효율적이라고 밝혔습니다. 또한, 플러그인(plugin)을 모든 세션에 무작정 연결하는 것은 좋지 않으며, 작업별로 필요한 플러그인만 정확히 연결해야 토큰 낭비를 막을 수 있다고 강조했습니다.
이러한 문제들을 해결하기 위해 개발자는 CLAUDE.md나 스킬 대신 '계층적 지식 기반(hierarchical knowledge base)'을 활용할 것을 제안했습니다. 이는 클로드가 필요한 지침과 도구 설명을 빠르고 저렴하게 탐색할 수 있도록 하여 진정한 점진적 공개(progressive disclosure)의 이점을 누릴 수 있게 합니다. 또한, 시스템 도구가 약 15K 토큰(전체 세션의 7%)을 소모하며 비활성화해도 컨텍스트에서 제거되지 않는다는 점과, 배경 세션에서는 AskUserQuestion 기능이 작동하지 않아 자체적인 도구를 구현해야 한다는 점도 중요한 교훈으로 꼽았습니다. 마지막으로, 작업을 더 어렵고 간단한 하위 작업으로 분해하여 간단한 작업은 더 저렴한 모델에 할당함으로써 토큰을 절약하는 전략의 중요성을 강조했습니다.