오프라인 추론 학습, DPO가 최고 성능 비결은?

최근 대규모 언어모델(LLM)의 복잡한 추론 능력을 더 작고 효율적인 모델에 효과적으로 전달하는 것이 인공지능(AI) 연구의 주요 과제입니다. 이를 위해 오프라인 강화 학습(Offline Reinforcement Learning) 손실 함수(loss function)들이 널리 사용되는데, 이 기법들이 실제로 모델의 가중치(weight) 공간에서 어떻게 변화를 유도하는지에 대한 심층적인 분석이 발표되었습니다. 연구진은 SFT, RFT, RIFT, DFT, Offline GRPO, DPO 등 여섯 가지 주요 오프라인 추론 학습 방법을 동일한 수학 데이터와 Qwen3-4B 기반 모델에 적용하여 그 메커니즘을 비교했습니다.

연구 결과는 각 학습 방식의 독특한 특성을 명확히 보여주었습니다. 특히 SFT(Supervised Fine-Tuning), RFT(Reasoning Feedback Training), RIFT(Reasoning via Iterated Fine-Tuning)는 가중치 변화 방향이 거의 일치(코사인 유사도 0.97 이상)하며 GSM8K 수학 문제 해결에서 87~88%의 유사한 정확도를 보였습니다. 반면, DFT(Direct Feedback Training)는 보상 가중치(reward-weighted) 방식들과는 다른 방향으로 가중치가 변화했습니다. 주목할 점은 DPO(Direct Preference Optimization)였습니다. DPO는 다른 모든 방법과 거의 직교(orthogonal)하는 가중치 공간에서 학습이 진행되었으며, 모드 연결성(mode connectivity) 장벽을 보였고, 후반 레이어(late-layer)의 CKA(Centered Kernel Alignment) 값도 0.46으로 크게 낮아졌습니다. 이러한 독특한 학습 경로는 DPO가 GSM8K에서 93.5%의 정확도를 달성하며 다른 모든 방법(3.3~10.0%)을 압도하는 최고 성능을 내는 비결로 작용했습니다. 이는 DPO가 다른 방법들보다 10배 낮은 학습률(learning rate)을 사용했음에도 불구하고 얻어진 결과로, 손실 함수와 최적화 방식의 결합된 효과가 크다는 것을 시사합니다.

이 연구는 단순히 성능 수치 비교를 넘어, 오프라인 추론 학습 기법들이 모델 내부에서 어떻게 작동하는지에 대한 근본적인 이해를 제공합니다. 특히 DPO가 다른 방법들과는 확연히 다른 가중치 공간 경로를 통해 우수한 추론 성능을 달성한다는 점은, 향후 소형 모델의 추론 능력 향상을 위한 새로운 최적화 전략 개발에 중요한 단서를 제공합니다. 이는 대규모 모델의 지식을 효율적으로 전이(knowledge distillation)하려는 연구자들에게 DPO의 메커니즘을 더 깊이 탐구하고, 이를 응용한 새로운 학습 방법론을 모색할 필요성을 제기합니다. 결과적으로, 이 연구는 효율적인 AI 모델 개발을 위한 이론적 기반을 강화하고, 실용적인 응용 가능성을 넓히는 데 기여할 것입니다.