트랜스포머(Transformer) 모델은 다양한 인공지능(AI) 작업의 표준 솔루션으로 자리 잡았으며, 그 중심에는 쿼리(Query), 키(Key), 값(Value)으로 구성된 QKV 어텐션(attention) 메커니즘이 있습니다. 하지만 이 세 가지 투영(projection)의 개별적인 기여와 일부를 생략했을 때의 영향은 지금까지 명확하게 밝혀지지 않았습니다. 최근 발표된 연구는 이러한 의문에 답하기 위해 QKV 투영의 다양한 변형을 체계적으로 평가했습니다.
연구팀은 세 가지 투영 공유 제약 조건, 즉 Q-K=V(키-값 공유), Q=K-V(쿼리-키 공유), Q=K=V(단일 투영)를 실험했습니다. 특히 Q-K=V 변형은 언어 모델링(language modeling)에서 기존 QKV 트랜스포머와 동등하거나 때로는 더 나은 성능을 보였습니다. 3억(300M) 및 12억(1.2B) 매개변수 모델을 100억(10B) 토큰으로 학습시킨 언어 모델링 실험에서, Q-K=V 투영 공유는 퍼플렉서티(perplexity)가 3.1% 소폭 저하되었음에도 불구하고 KV 캐시(cache)를 50% 절감하는 효과를 가져왔습니다.
더 나아가, 이 투영 공유 방식은 그룹화된 쿼리 어텐션(GQA)이나 멀티 쿼리 어텐션(MQA)과 같은 헤드 공유(head sharing) 기법과 상호 보완적으로 작동합니다. Q-K=V를 GQA-4와 결합하면 캐시를 87.5% 절감할 수 있으며, MQA와 결합하면 무려 96.9%의 캐시 절감 효과를 얻을 수 있습니다. 이는 키(Key)와 값(Value)이 유사한 표현 공간을 차지할 수 있고, 어텐션이 저랭크(low-rank) 체제에서 작동하기 때문에 품질을 유지할 수 있다는 것이 연구팀의 설명입니다. 이러한 결과는 특히 에지 디바이스(edge device)에서의 추론 메모리(inference memory) 이점을 제공하여, 온디바이스 AI(on-device AI) 구현을 현실화하는 데 크게 기여할 것입니다.