대규모 언어모델(LLM) 기반의 자율 에이전트가 기업 워크플로우에 도입될 때, 방대한 시스템 응답으로 인한 컨텍스트 오버플로우, 비효율적인 추론 비용 등의 문제가 발생합니다. 마이크로소프트(Microsoft) 연구진은 이 문제를 해결하기 위해 컨텍스트 엔지니어링(context engineering) 기법을 연구했으며, 불필요한 정보를 줄이고 핵심만 요약하는 방식이 에이전트의 성능과 효율성을 크게 개선할 수 있음을 입증했습니다.
연구팀은 마이크로소프트 다이내믹스 365 파이낸스 앤 오퍼레이션(Microsoft Dynamics 365 Finance and Operations)의 자동 경비 항목 분류 작업을 대상으로 GPT-5와 클로드 소네트 4.5(Claude Sonnet 4.5) 모델을 활용해 50가지 호텔 경비 처리 벤치마크를 수행했습니다. 전체 대화 기록을 유지하는 방식은 71.0%의 완료율을 보였지만, 148만 개 이상의 토큰(token)과 14.56시간이 소요되어 비효율적이었습니다. 반면, 최근 5개의 도구 호출/응답 쌍만 유지하는 방식은 완료율을 79.0%로 높이고 토큰 사용량과 실행 시간을 각각 53만 개, 5.39시간으로 크게 줄였습니다. 여기에 자동 요약(automated summarization) 기능을 추가하자 완료율은 91.6%까지 향상되었고, 토큰 사용량(55만 개)과 실행 시간(5.79시간)은 효율적인 수준을 유지했습니다.
이 연구 결과는 기업 환경에서 LLM 에이전트가 장기적인 작업을 수행할 때, 컨텍스트를 효율적으로 관리하는 것이 얼마나 중요한지 보여줍니다. 특히, 최근 상호작용 기록을 선별적으로 유지하고 이를 압축적으로 요약하는 방식은 전체 기록을 보존하는 것보다 신뢰성과 효율성 모두에서 우수하다는 점이 확인되었습니다. 이는 복잡한 기업 시스템과 연동되는 LLM 에이전트의 실용성을 높이고, 더 나아가 AI 에이전트가 실제 비즈니스 가치를 창출하는 데 핵심적인 기여를 할 수 있음을 시사합니다.