LLM 컨텍스트 창, 광고만큼 믿지 마세요

대규모 언어모델(LLM)의 컨텍스트 창은 광고되는 크기와 달리, 실제로는 10만 토큰(token) 내외의 '스마트 구간'과 그 이후 성능이 저하되는 '둔한 구간'으로 나뉩니다. 코딩 에이전트처럼 토큰 소모가 많은 작업에서는 이 한계에 빠르게 도달할 수 있어, 긴 세션 자동 요약보다는 명세 기반의 작은 산출물로 정보를 관리하는 것이 효과적입니다.

4시간 전·2026.06.15·읽기 2분·neo https://news.hada.io/user/neo

대규모 언어모델(LLM)의 컨텍스트 창 크기가 계속 커지고 있지만, 이 광고 수치를 그대로 믿어서는 안 된다는 지적이 나왔습니다. LLM은 특정 토큰 범위 내에서만 '예리하게(스마트 구간)' 작동하며, 이 범위를 넘어서면 이전 지시를 잊거나 성능이 급격히 떨어지는 '둔한 구간'에 진입한다는 분석입니다. 이 구분점은 대략 10만 토큰(token) 내외로 추정됩니다.

최근 벤더들은 20만, 100만, 심지어 200만 토큰에 달하는 컨텍스트 창을 홍보하지만, 이는 실제 작업 가능한 유효 컨텍스트와는 차이가 크다는 것이 핵심입니다. RULER와 Chroma의 연구 보고서에 따르면, 컨텍스트 창을 채울수록 LLM의 성능이 점진적으로 저하되는 현상인 '컨텍스트 로테이션(context rot)'이 관찰됩니다. 특히 코딩 에이전트와 같은 작업은 파일 읽기, 긴 디버깅, 테스트 실행만으로도 10만 토큰 한계에 빠르게 도달할 수 있어, 광고된 컨텍스트 크기가 무색해지는 경우가 많습니다.

이러한 한계를 극복하기 위해, 긴 세션을 모델이 자동으로 요약하는 방식보다는 사람이 직접 작성한 명세(specification)나 작은 산출물(artifact)로 정보를 관리하는 방식이 권장됩니다. 예를 들어, 제품 요구사항 문서(PRD), 계획, 스킬 정의 등 '빵 부스러기(breadcrumb)'처럼 다음 세션이나 다른 사람이 이어받을 수 있는 형태로 정보를 세션 외부에 남겨두는 것입니다. 이는 모델이 불필요하게 많은 정보를 기억하려 애쓰지 않고, 항상 '스마트 구간'에 머물러 핵심 작업에 집중할 수 있도록 돕습니다.

일부 개발자들은 에이전트의 재귀 호출(recursive call)을 활용해 토큰 사용량을 효율적으로 제어하는 방법을 공유하기도 합니다. 최상위 대화 스레드에서는 도구 호출을 막고, 필요한 작업은 하위 에이전트의 재귀 호출 안에서 처리한 뒤 결과만 반환하는 방식입니다. 이처럼 컨텍스트 창을 '예산'처럼 관리하고, 중요한 정보는 명확한 산출물로 외부화하는 접근 방식은 LLM의 실제 활용도를 높이는 중요한 전략이 될 것입니다.