관측 불가능한 상태의 마르코프 밴딧, 최적의 의사결정 전략은?

최근 발표된 연구 논문은 관측 불가능한 상태(non-observable states)와 제한된 의사결정 시점(constrained decision epochs)을 가진 마르코프 밴딧(Markovian bandit) 환경에서 후회(regret)를 최소화하는 문제에 대한 새로운 접근법을 제시했습니다. 이는 마치 여러 개의 슬롯 머신 중 어떤 것을 선택해야 할지 모르는 상황에서, 각 슬롯 머신의 내부 상태를 볼 수 없고 특정 시점에만 선택을 바꿀 수 있는 복잡한 시나리오와 유사합니다. 이 연구는 이러한 난해한 환경에서 학습 알고리즘의 성능을 평가하고 개선하는 데 초점을 맞춥니다.

이 연구의 핵심은 '순수 후회(pure regret)'라는 새로운 평가 기준을 도입한 것입니다. 이는 학습 알고리즘의 성능을 시작부터 끝까지 단 한 번도 팔(arm)을 바꾸지 않고 최적의 팔을 선택하는 '순수 정책(pure policy)'과 비교합니다. 또한, 기존의 '휴지 마르코프 밴딧(rested Markovian bandits)'을 일반화한 '자체 열화 마르코프 밴딧(self-degrading Markovian bandits)' 개념을 제시했습니다. 연구진은 사전 지식이 없는 경우, 팔을 거의 바꾸지 않는 알고리즘의 후회가 학습 기간(T)에 대해 로그 스케일($\omega(\log(T))$)을 초과하여 증가한다는 것을 보였습니다. 하지만 UCB(Upper Confidence Bound) 알고리즘에서 영감을 받은 UCB-NOM(UCB with Non-Observable States and Constrained Decision Epochs)이라는 새로운 낙관적(optimistic) 알고리즘을 설계하여 거의 로그 스케일의 후회를 달성했습니다. 특히, 팔의 바이어스 함수(bias function)에 대한 사전 지식이 주어지면 UCB-NOM이 $O(\log(T))$ 후회를 달성할 수 있음을 입증했습니다. 주목할 점은 이러한 후회 경계가 마르코프 체인의 상태 수에 의존하지 않는다는 것입니다.

이 연구 결과는 상태를 직접 관측할 수 없는 복잡한 시스템에서 효율적인 의사결정 전략을 개발하는 데 중요한 시사점을 제공합니다. 추천 시스템, 임상 시험, 네트워크 라우팅 등 다양한 실제 응용 분야에서 의사결정 주체가 시스템의 내부 상태를 완전히 파악하기 어려운 경우가 많습니다. UCB-NOM과 같은 알고리즘은 이러한 불확실성 속에서도 최적에 가까운 성능을 달성할 수 있는 가능성을 열어줍니다. 특히, 마르코프 체인의 상태 수에 무관하게 후회 경계를 보장한다는 점은 실제 시스템의 복잡성에 덜 민감하게 반응하는 견고한 알고리즘 설계의 기반이 될 수 있습니다. 이는 인공지능(AI) 기반의 자율 시스템이 더욱 복잡하고 예측 불가능한 환경에서 의사결정을 내릴 때 중요한 이론적 토대가 될 것입니다.