대규모 언어모델(LLM)의 추론(reasoning) 능력을 훈련하는 데 널리 사용되는 세 가지 방법인 GRPO(Group Relative Policy Optimization), Dr. GRPO(GRPO Done Right), 그리고 DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization)가 사실은 동일한 원리를 공유한다는 연구 결과가 발표되었습니다. 이 세 가지 기법은 겉으로는 달라 보이지만, 모두 '표준편차(standard deviation)'라는 단 하나의 수치를 조절하는 방식으로 작동합니다.
이 연구에 따르면, 모델이 특정 문제에 대해 여러 번 답변을 생성하고 자동 검사기가 각 답변의 정오(right or wrong)를 판별할 때, 이 정오 판별 결과의 표준편차가 바로 답변들 간의 '불일치(disagreement)' 정도를 나타냅니다. 답변들이 정답과 오답으로 고르게 나뉠 때 표준편차가 가장 커지고, 모든 답변이 일치할 때는 0이 됩니다. GRPO는 이 표준편차로 나누는 방식을 사용하고, Dr. GRPO는 이 나눗셈을 생략하며, DAPO는 표준편차가 0인 그룹을 제외합니다. 이 논문은 이러한 방식들이 결국 '그룹 표준편차 항등식(group-standard-deviation identity)'이라는 하나의 다이얼을 조절하는 세 가지 설정에 불과하다는 것을 증명했습니다. 이 다이얼은 학습 업데이트의 크기를 결정하며, 답변이 분할된 그룹이 가장 많은 것을 가르치고, 만장일치 그룹은 아무것도 가르치지 않아 학습에서 제외됩니다.
이러한 발견은 LLM 훈련의 핵심 메커니즘을 이해하는 데 중요한 통찰을 제공합니다. 단순히 '무해한 정규화(normalization) 단계'로 보였던 것이 실제로는 학습이 어디서, 얼마나 강력하게 일어날지를 결정하는 핵심 요소라는 점을 밝혀낸 것입니다. 이는 어떤 문제에 가장 큰 가중치를 부여해야 하는지, 그리고 각 문제에 대해 몇 번의 시도가 필요한지에 대한 지침을 제시합니다. 연구팀은 'Big-Math'라는 대규모 실제 난이도 데이터셋과 통제된 훈련 실험을 통해 이러한 직관을 확인했으며, 이는 향후 LLM 훈련 방법론을 더욱 효율적으로 설계하는 데 기여할 것으로 기대됩니다.