대규모 언어모델(LLM)의 추론(inference) 과정에서 중요한 역할을 하는 KV 캐시(Key-Value Cache)가 훨씬 더 유연하게 활용될 수 있다는 새로운 연구 결과가 발표되었습니다. 기존의 접두사 캐싱(prefix caching) 방식은 입력의 접두사가 조금만 달라져도 전체 캐시를 무효화하고 처음부터 다시 계산해야 하는 비효율성이 있었습니다. 하지만 이번 연구는 모델이 이미 '노트'처럼 결론을 기록해두기 때문에, KV 캐시를 편집하고 조합하는 것이 가능하다고 밝혀냈습니다.
이 연구에 따르면, 모델은 사전 채우기(prefill) 단계에서 이미 특정 필드에 대한 결론을 '하류 노트(downstream notes)'에 기록합니다. 실제 해당 필드의 키/값(key/value) 벡터가 전체 결정에 미치는 영향은 1% 미만에 불과했습니다. 이러한 발견을 바탕으로 두 가지 핵심 기능이 가능해졌습니다. 첫째, KV 캐시를 편집할 수 있습니다. 예를 들어, 연쇄적 사고(chain-of-thought) 방식에서는 필드만 수정해도 이전 결정을 복구할 수 있으며, 이는 전체 재계산 대비 약 1%의 컴퓨팅 자원만 소모합니다. 둘째, KV 캐시를 조합할 수 있습니다. 미리 컴파일된 '기술(skill)'을 위치에 관계없이 다른 컨텍스트에 삽입할 수 있으며, 이는 전체 재계산과 거의 동일한 결과를 보이면서도 O(L^2)가 아닌 O(L) 시간 복잡도로 첫 토큰 생성 시간을 단축합니다. 이러한 편집 및 조합 에이전트는 최대 14.9배 낮은 지연 시간으로 재계산과 동일한 결정을 유지합니다.
이러한 KV 캐시의 편집 및 조합 가능성은 LLM 운영의 효율성을 크게 향상시킬 잠재력을 가집니다. 특히 vLLM과 같은 온라인 서비스 환경에서 접두사 캐시 적중률을 98.5%로 유지하면서 p90 첫 토큰 생성 시간을 53배에서 398배까지 단축할 수 있습니다. 이는 모델의 규모, 양자화(quantization), 전문가 혼합(Mixture-of-Experts), 멀티모달 캐시 등 다양한 환경에서 검증되었으며, 여러 어텐션(attention) 변형에도 적용 가능합니다. 결과적으로, LLM 서비스 제공자들은 컴퓨팅 자원을 훨씬 효율적으로 사용하고 사용자에게 더 빠른 응답 시간을 제공할 수 있게 되어, LLM 기반 애플리케이션의 비용 효율성과 사용자 경험을 혁신적으로 개선할 수 있을 것으로 예상됩니다.