Breaking the Solver Bottleneck: Training Task Generators at the Learnable Frontier

강화 학습(RL)을 통해 AI 에이전트를 훈련할 때 가장 큰 난관은 '학습 가능한 최전선(learnable frontier)'에 있는 작업을 충분히 공급하는 것입니다. 이는 현재 모델이 풀 수 있을 만큼 적당히 어렵고 유효한 작업을 의미합니다. 추론 및 에이전트 모델이 발전하면서 고정된 작업 분포는 한계에 부딪히고, 단순히 무작위로 생성된 작업은 너무 쉽거나, 불가능하거나, 잘못 정의된 경우가 많아 훈련에 비효율적입니다.

이러한 병목 현상을 해결하기 위해 연구진은 'PROPEL'이라는 새로운 프레임워크를 제안했습니다. PROPEL은 작업 생성기를 훈련하여 유효성과 학습 가능성을 최적화하는 것을 목표로 합니다. 기존에는 작업 생성기가 새로운 작업을 만들면, 솔버(solver)가 이를 직접 풀어보면서 적합성을 평가해야 했습니다. 특히 소프트웨어 엔지니어링(SWE) 작업의 경우, 솔버가 한 번 작업을 수행하는 데 수십 분이 걸릴 수 있어, 이 방식으로는 생성기 훈련이 사실상 불가능했습니다. PROPEL은 이러한 '솔버 병목 현상'을 해소하기 위해 '활성화 프로브(activation probe)'라는 경량 모델을 도입합니다. 이 프로브는 한 번 구축된 레이블링된 작업 데이터셋과 솔버 결과를 바탕으로, 새로운 작업이 솔버를 통과할 확률을 예측합니다. 이를 통해 작업 생성기는 솔버를 직접 실행하지 않고도 프로브의 예측을 통해 효율적으로 최적화될 수 있습니다.

PROPEL의 효과는 다양한 분야에서 입증되었습니다. 코딩 작업의 경우, Qwen2.5-3B-Instruct 솔버에 대해 학습 가능한 최전선에 있는 작업의 비율을 10.1%에서 20.0%로, Qwen2.5-7B-Instruct 솔버에 대해서는 5.3%에서 12.6%로 증가시켰습니다. 소프트웨어 엔지니어링(SWE) 작업에서는 Qwen3.5-27B 모델을 사용했을 때, 훈련에 사용되지 않은 저장소(repository)에서도 목표 해결률(targeted solve rate)에 해당하는 작업 생성 비율을 9.8%에서 19.6%로 두 배 가까이 향상시켰습니다. 이는 PROPEL이 수학, 코딩, SWE 등 여러 모델 규모에서 목표 해결률에 맞춰 작업 생성을 효과적으로 조절할 수 있음을 보여줍니다.

이 연구는 AI 에이전트의 훈련 효율성을 획기적으로 개선할 수 있는 중요한 진전을 의미합니다. 특히 복잡하고 시간이 많이 소요되는 소프트웨어 개발과 같은 분야에서 AI 에이전트를 훈련하는 데 드는 비용과 시간을 크게 줄일 수 있습니다. 학습 가능한 최전선에 있는 작업을 효율적으로 생성함으로써, AI 모델은 더 빠르게 발전하고, 더욱 복잡한 문제를 해결할 수 있는 능력을 갖추게 될 것입니다. 이는 궁극적으로 AI 에이전트의 실제 적용 가능성을 넓히고, 다양한 산업 분야에서 혁신을 가속화하는 데 기여할 것으로 기대됩니다.