플로우 매칭(flow-matching) 및 확산(diffusion) 정책은 복잡한 액션을 생성하는 데 뛰어난 성능을 보이지만, 시간차 강화 학습(Temporal-Difference Reinforcement Learning, RL)을 이용해 최적화하는 과정에서 어려움이 있었습니다. 특히 비평가(critic)의 액션 기울기(action gradient)를 활용하는 것이 중요하지만, 다단계 디노이징(denoising) 과정에 이 신호를 직접 역전파(backpropagate)하면 수치적으로 불안정해지는 문제가 발생했습니다. 이러한 한계를 극복하기 위해 새로운 방법론 'QPILOTS'가 제안되었습니다.
QPILOTS는 기존 정책을 수정하지 않고 추론(inference) 시점에 디노이징 과정을 조향(steering)하는 방식으로 작동합니다. 기존 방식들이 기울기 정보를 버리거나, 정책을 단순화하거나, 비평가가 개선됨에 따라 정책을 반복적으로 미세조정(fine-tuning)하는 것과 달리, QPILOTS는 디노이징 각 단계에서 노이즈가 섞인 중간 액션에 대해 비평가를 평가하는 대신, 중간 상태를 최종 액션 추정치로 투영(project)하고 그곳에서 비평가 기울기를 계산합니다. 이 연구는 두 가지 변형을 소개하는데, QPILOTS-U는 빠른 단일 지점 근사(single-point approximation)를 사용하고, QPILOTS-M은 학습된 보조 네트워크를 통해 미분 가능한 사후 샘플(posterior samples)을 추출합니다. 표준 오프라인-온라인 RL 벤치마크에서 QPILOTS는 50개 태스크에 걸쳐 평균 90%의 성공률을 달성하며 최고의 종합 성능을 기록했습니다.
이 기술은 강화 학습 분야에서 정책 최적화의 안정성과 효율성을 크게 향상시킬 수 있다는 점에서 중요합니다. 특히 대규모 사전 학습된 비전-언어 액션(Vision-Language Action, VLA) 기반 모델을 조향하는 데 QPILOTS를 적용하여 시뮬레이션 환경에서 6가지 조작 태스크에서 기존 추론 시간 접근 방식보다 우수하거나 동등한 성능을 보였습니다. 이는 로봇 공학(robotics)과 같은 실제 환경에서 복잡한 작업을 수행하는 AI 시스템 개발에 중요한 진전을 의미하며, 더 안정적이고 효율적인 AI 에이전트 구축의 가능성을 열어줍니다.