대규모 언어모델(LLM)의 컨텍스트 윈도우(context window) 크기가 계속 커지고 있지만, 실제 모델이 정보를 유효하게 처리하는 능력은 광고되는 수치에 미치지 못한다는 주장이 제기되었습니다. 저자는 LLM의 컨텍스트 윈도우를 '스마트 존(smart zone)'과 '덤 존(dumb zone)'으로 나누어 설명하며, 약 10만 토큰(token)을 기점으로 모델의 주의력(attention)이 급격히 떨어져 이전에 제공된 정보를 잊기 시작한다고 경고합니다.
이는 RULER 및 Chroma의 컨텍스트 로트(context rot) 연구와 같은 여러 연구 결과에서도 뒷받침됩니다. 이러한 연구들은 효과적인 컨텍스트가 광고되는 수치의 일부에 불과하며, 컨텍스트 윈도우가 채워질수록 성능이 점진적으로 저하된다는 것을 보여줍니다. 특히 코딩 에이전트(coding agent)는 파일 읽기, 디버깅 세션, 테스트 실행 등으로 빠르게 토큰을 소모하며 10만 토큰 한계에 도달하기 쉽습니다. 하지만 벤더들은 20만, 100만, 심지어 200만 토큰에 달하는 컨텍스트 윈도우를 광고하며, 이는 실제 사용 가능한 작업 세트(working set)와는 거리가 있다는 지적입니다.
이러한 문제를 해결하기 위해 클로드 코드(Claude Code)와 같은 최신 에이전트들은 세션이 길어지면 기록을 요약하여 컨텍스트를 압축하는 자동 압축(auto-compaction) 기능을 제공합니다. 그러나 이 방식은 이미 '덤 존'에 진입한 후에 작동하며, 요약 자체도 성능이 저하된 모델에 의해 생성될 수 있어 한계가 있습니다. 따라서 저자는 새로운 세션을 시작할 때 직접 작성한 사양(spec)을 전달하거나, obra/superpowers, mattpocock/skills와 같은 프로젝트처럼 작은 '명명된 아티팩트(named artifact)'를 중심으로 에이전트 워크플로우를 구조화하여 중요한 정보를 세션 외부로 옮기는 방식을 제안합니다. 이는 컨텍스트 윈도우를 예산처럼 관리하여 '스마트 존' 내에서 효율적으로 작업하는 데 도움이 됩니다.