혼합 전문가(MoE) 모델은 대규모 언어모델(LLM)의 효율적인 확장을 가능하게 하지만, 여전히 막대한 메모리 사용량과 추론(inference) 오버헤드로 인해 실제 배포에 많은 비용이 듭니다. 기존 압축 방식은 주로 전문가(expert) 전체를 제거하거나 중요도에 따라 순위를 매기는 등 전문가 단위로 이루어져 왔습니다. 그러나 이러한 방식은 세밀한 중복(redundancy)을 포착하기에는 너무 거칠어 압축 효율이 제한적이었습니다.
최근 연구는 MoE 전문가 내부의 정보가 특정 채널(channel)에 고도로 집중되어 있다는 중요한 관찰에서 출발합니다. 즉, 중요하다고 여겨지는 전문가 내에서도 상당한 중복이 존재한다는 것입니다. 이에 연구팀은 MoE 모델에 특화된 구조적 가지치기(pruning) 프레임워크를 제안했습니다. 이 방법은 가지치기 비율 할당 문제를 채널 점수 커버리지 최대화 문제로 재구성하고, 어트리뷰션(attribution) 기반 근사법을 사용하여 효율적으로 해결합니다. 이는 기존의 전문가 단위 압축보다 훨씬 정밀하게 모델의 불필요한 부분을 제거할 수 있게 합니다.
DeepSeek 및 Qwen MoE 모델에 대한 실험 결과, 이 새로운 가지치기 방법은 4비트 양자화(quantization)와 결합했을 때 50% 또는 25%의 구조적 가지치기에도 모델 정확도를 성공적으로 유지했습니다. 특히 Qwen3-30B-A3B 모델에서는 메모리 사용량을 5.27배 감소시키면서도 다양한 벤치마크에서 최신 기준선(state-of-the-art baselines)을 지속적으로 능가하는 성능을 보였습니다. 이는 MoE 모델의 배포 비용을 획기적으로 낮출 수 있는 잠재력을 시사하며, 더 넓은 범위의 애플리케이션에서 MoE 모델의 활용을 촉진할 것으로 기대됩니다.