Gaussian Mixture Attention: Linear-Time Sequence Mixing via Probabilistic Latent Routing

트랜스포머 모델의 핵심 병목인 어텐션(attention) 메커니즘의 비효율성을 해결하기 위한 새로운 접근법, 가우시안 혼합 어텐션(GMA)이 발표되었습니다. 이 기술은 토큰 간의 직접적인 비교 대신 잠재 공간 라우팅을 통해 계산 복잡도를 획기적으로 줄여, 긴 문맥 처리 능력을 향상시키면서도 메모리 사용량을 선형적으로 유지합니다. 이는 대규모 언어모델(LLM)의 효율성을 높이는 데 기여할 것으로 기대됩니다.

7시간 전·2026.06.18·읽기 1분·Yongchao Huang, Hassan Raza

최근 발표된 연구 논문에서 트랜스포머(Transformer) 아키텍처의 핵심 요소인 어텐션(attention) 메커니즘의 고질적인 문제, 즉 긴 문맥(long contexts) 처리 시 발생하는 계산 및 메모리 병목 현상을 해결할 새로운 방법론이 제시되었습니다. 가우시안 혼합 어텐션(Gaussian Mixture Attention, GMA)이라 불리는 이 기술은 기존 어텐션의 토큰 간 직접 비교 방식을 확률적 잠재 라우팅(probabilistic latent routing)으로 대체하여 효율성을 대폭 개선합니다.

기존 어텐션은 모든 토큰 쌍(N*N)에 대해 상호작용을 계산하므로, 문맥 길이가 길어질수록 계산 복잡도가 N의 제곱에 비례하여 증가하는 O(N^2) 문제를 안고 있습니다. GMA는 이를 K개의 학습된 가우시안 혼합 요소(Gaussian mixture components)를 통한 라우팅 방식으로 전환합니다. 쿼리(query)와 키(key)는 공유된 잠재 라우팅 공간에서 사후 책임 벡터(posterior responsibility vectors)로 매핑되며, 이들의 중첩이 암묵적인 책임 공간 유사도를 정의합니다. 값(value)은 K개의 슬롯을 가진 잠재 메모리에 기록되고 읽히는 방식으로 처리됩니다. 행렬 곱셈의 결합 법칙을 활용하여 N*N 유사도 행렬을 명시적으로 생성하지 않고, 두 개의 책임 행렬을 사용함으로써 활성화 저장 공간을 고정된 K에 대해 O(NK)로 줄여 O(N^2) 대비 효율성을 크게 높였습니다.

GMA는 양방향(bidirectional) 및 인과적(causal) 변형을 모두 지원하며, 가우시안 혼합 요소의 종단 간 미분 가능한(end-to-end differentiable) 매개변수화를 제공합니다. 실험 결과, GMA는 긴 문맥 분류(long-context classification) 작업에서 기존 어텐션 방식과 경쟁력 있는 성능을 보였으며, 인과적 GMA는 WikiText-103 데이터셋에서 선형/랜덤 특징 어텐션(linear/random-feature attention) 변형보다 향상된 결과를 나타냈습니다. 비록 최적화된 인과적 SDPA(Scaled Dot-Product Attention)나 맘바(Mamba) 모델에는 미치지 못하지만, 이는 GMA가 확률적이고 해석 가능하며 고정된 K에 대해 선형 시간 복잡도를 갖는 어텐션 스타일의 대안임을 시사합니다. 이 연구는 최적화된 소프트맥스 어텐션이나 상태 공간 모델(state-space models)을 완전히 대체하기보다는, 특정 시나리오에서 효율적인 대안이 될 수 있음을 보여줍니다.