Policy Regret for Embedding Model Routing: Contextual Bandits with Low-Rank Experts

최신 추천 시스템은 다양한 질의(쿼리)를 여러 임베딩 모델(embedding model)로 동적 라우팅하는 데 의존합니다. 이 과정에서 발생하는 비효율성을 해결하기 위해, 새로운 연구는 '정책 회귀(policy regret)' 개념을 도입하고 '저랭크 전문가(low-rank experts)'를 활용한 컨텍스트 밴딧(contextual bandit) 프레임워크를 제안했습니다. 이는 추천 시스템의 성능을 향상시키고 운영 비용을 절감할 수 있는 잠재력을 가집니다.

7시간 전·2026.06.16·읽기 1분·Yan Dai, Negin Golrezaei, Patrick Jaillet

최근 연구에 따르면, 현대 추천 시스템의 핵심 과제 중 하나는 다양한 사용자 질의(쿼리)를 여러 임베딩 모델(embedding model)로 효율적으로 분배하는 것입니다. 이는 마치 여러 전문가 중 어떤 전문가에게 어떤 질문을 던질지 실시간으로 결정하는 것과 유사합니다. 하지만 적대적 질의, 제한된 피드백, 모델 관측의 어려움 등 현실적인 문제들로 인해 이 동적 라우팅(dynamic routing) 문제는 제대로 해결되지 못했습니다.

이 문제를 해결하기 위해, Yan Dai와 동료 연구진은 임베딩 모델 라우팅을 '저랭크 전문가를 가진 적대적 컨텍스트 선형 밴딧(adversarial contextual linear bandit with low-rank experts)'으로 공식화했습니다. 여기서 질의는 컨텍스트(context), 추천 아이템은 행동(action), 임베딩 모델은 저랭크 잠재 표현 공간에서 작동하는 전문가(expert) 역할을 합니다. 연구팀은 기존 회귀(regret) 개념의 한계를 지적하며, 질의 의존적 모델 라우팅을 포착하면서도 효율적인 온라인 학습이 가능한 '로그-이차 정책 클래스(log-quadratic policy class)'를 식별했습니다. 또한, 불완전한 정보 하에서도 알려지지 않은 저랭크 구조에 적응하며 차원의 저주를 피하는 새로운 정책 경사(policy gradient) 알고리즘인 '하이젠트로피 정책 경사(Hypentropy Policy Gradient, HPG)'를 제안했습니다. HPG는 선형화된 정책 회귀에서 $\tilde{\mathcal O}(s\sqrt{M T})$의 성능을 달성하며, 이는 모델의 내재적 랭크(s), 모델 수(M), 라운드 수(T)에 비례하여 효율적인 학습이 가능함을 의미합니다.

이 연구는 추천 시스템의 핵심 성능 지표인 정확도와 효율성을 동시에 개선할 수 있는 중요한 의미를 가집니다. 특히, 여러 임베딩 모델을 운영하는 대규모 추천 시스템에서 모델 선택과 라우팅의 최적화는 컴퓨팅 자원 절감과 사용자 경험 향상에 직접적인 영향을 미칩니다. HPG 알고리즘은 계산 효율적이고 매개변수 없이 구현 가능하다는 점에서 실제 서비스에 적용될 가능성이 높습니다. 이는 추천 시스템 개발자들이 더욱 정교하고 비용 효율적인 방식으로 모델을 관리하고, 변화하는 사용자 행동과 데이터에 실시간으로 적응할 수 있는 기반을 제공할 것입니다.