2017년 세계 최고 권위의 인공신경망 학술대회인 NIPS(Neural Information Processing Systems, 현 NeurIPS)에서 한 연구가 채택되지 못했습니다. 바로 오픈AI(OpenAI)가 제안한 PPO(Proximal Policy Optimization) 알고리즘에 대한 논문이었습니다. 당시에는 주목받지 못했던 이 알고리즘은 챗GPT(ChatGPT)와 같은 대규모 언어모델(LLM)의 등장과 함께 그 중요성이 재조명되며, 오늘날 LLM 훈련의 핵심 기술로 자리매김했습니다.
PPO는 강화 학습(Reinforcement Learning)의 한 종류로, 정책(policy) 업데이트 시 이전 정책과의 차이를 제한하여 학습의 안정성을 높이는 것이 특징입니다. 초기에는 로봇 제어, 게임 플레이 등 다양한 강화 학습 문제에 적용되었으나, 그 잠재력이 완전히 발휘된 것은 LLM 분야였습니다. 특히, 인간 피드백 기반 강화 학습(RLHF, Reinforcement Learning from Human Feedback)의 핵심 구성 요소로 활용되면서 LLM이 인간의 선호도와 지시를 더 잘 따르도록 미세조정(fine-tuning)하는 데 결정적인 역할을 했습니다. 이는 LLM이 단순히 텍스트를 생성하는 것을 넘어, 사용자의 의도를 정확히 이해하고 윤리적이며 유용한 답변을 제공하는 데 필수적인 과정입니다.
PPO 알고리즘의 사례는 학계의 초기 평가와 실제 기술의 파급력 사이에 괴리가 발생할 수 있음을 보여줍니다. 당시 NIPS 심사위원들은 PPO의 참신성이나 이론적 깊이에 대해 회의적인 시각을 가졌을 수 있지만, 실제로는 이 기술이 인공지능(AI)의 새로운 시대를 여는 데 중요한 기반이 되었습니다. 이는 연구의 가치가 단기적인 학술적 평가를 넘어 장기적인 기술 발전과 실제 적용 가능성에서 찾아질 수 있음을 시사하며, AI 연구자들에게는 끊임없이 새로운 가능성을 탐구하고 기존의 한계를 넘어서는 도전의 중요성을 일깨워주는 사례로 남을 것입니다.