최근 발표된 계층적 전역 어텐션(HGA) 기술이 대규모 언어모델(LLM)의 고질적인 문제 중 하나인 긴 컨텍스트 처리의 비효율성을 해결할 획기적인 대안으로 떠오르고 있습니다. HGA는 사전 학습된 트랜스포머 모델의 밀집 인과 어텐션(dense causal attention)을 대체하는 방식으로, 기존 모델의 가중치(W_Q, W_K, W_V, W_O)를 전혀 변경하지 않고도 적용할 수 있어 재학습이 필요 없다는 큰 장점을 가집니다.
HGA는 계층적인 두 단계 라우팅(routing) 방식을 사용합니다. 먼저 RoPE(Rotary Positional Embedding)를 인식하는 요약 정보를 활용해 관련성이 높은 청크(chunk)를 검색하고, 그 다음 가장 관련성이 높은 그룹만 선택하여 정확한 토큰 수준의 어텐션을 수행합니다. 이처럼 계층적인 검색을 통해 GPU 메모리로 전송되는 토큰 수를 획기적으로 줄이며, 전체 컨텍스트의 K/V(Key/Value) 값은 호스트 RAM 또는 NVMe 스토리지에 저장됩니다. 그 결과, GPU 메모리 소모는 모델 가중치와 라우팅된 작업 세트에 주로 의존하게 되어 전체 컨텍스트 길이에 거의 영향을 받지 않게 됩니다. 실제로 Qwen3-30B 모델에 적용했을 때, 단일 RTX 5090(32GB) GPU에서 64K 토큰 컨텍스트를 무리 없이 처리할 수 있었으며, 이는 기존 방식으로는 불가능했던 수준입니다.
이 기술은 LLM의 활용 가능성을 크게 확장할 잠재력을 지닙니다. HGA는 4K에서 64K 토큰에 이르는 모든 테스트 컨텍스트 길이에서 밀집 어텐션(dense attention)과 비교했을 때 약 0.01~0.02 nats의 미미한 품질 저하만을 보이며, 약 3%의 희소성(sparsity)을 유지합니다. 이는 계층적 라우팅으로 인한 근사 오차가 매우 작다는 것을 의미합니다. HGA는 더 적은 컴퓨팅 자원으로도 훨씬 긴 컨텍스트를 처리할 수 있게 함으로써, LLM을 활용한 문서 요약, 장문 질의응답, 코드 분석 등 다양한 고부가가치 애플리케이션 개발에 새로운 기회를 제공할 것으로 기대됩니다.