최근 발표된 연구 논문에서 대규모 언어모델(LLM)이 추론 과정에서 생성하는 내부적인 '생각'과 영구적으로 유지해야 할 '기억'을 명확히 구분하도록 훈련하는 새로운 학습 패러다임인 '상태 커밋 학습(State Commitment Learning)'이 제안되었습니다. 기존 LLM은 추론 과정에서 생성되는 모든 중간 토큰(hidden thoughts)을 동일하게 문맥(context)에 유지하여, 때로는 실패한 시도나 불필요한 정보가 이후 추론에 영향을 미쳐 오류를 유발할 수 있다는 문제점을 해결하기 위함입니다.
연구진은 이 문제를 해결하기 위해 '영구 상태 충분성(persistent-state sufficiency)'이라는 반사실적 기준을 정의하고, 이를 통해 모델이 중간 생각을 지운 후에도 답변이 유효한지 측정하고 훈련할 수 있도록 했습니다. 핵심적으로 'Counterfactual Erasure RL(CERL)'이라는 강화 학습(Reinforcement Learning, RL) 기법을 도입했는데, 이는 모델이 숨겨진 생각을 유지한 경로와 이를 지운 경로 모두를 평가하여, 지운 경로에서도 정확한 답변이 유지될 때만 보상(reward)을 제공합니다. 이 접근 방식은 수학 문제 해결, 장기 논리 추론, 과학 질의응답, 다중 턴 도구 사용 등 다양한 평가에서 기존의 정확성 기반 RL이나 긴 답변 미세조정(SFT) 방식보다 훨씬 적은 의존성으로도 정확도를 유지하며 성능을 뛰어넘는 결과를 보였습니다.
이 '상태 커밋 학습'은 LLM의 추론 안정성과 효율성을 크게 향상시킬 잠재력을 가지고 있습니다. 모델이 불필요한 내부 계산이나 잘못된 중간 과정을 스스로 걸러내고 핵심적인 정보만을 '기억'으로 확정하도록 학습함으로써, 더 견고하고 신뢰할 수 있는 답변을 제공할 수 있게 됩니다. 이는 특히 복잡한 문제 해결이나 장기적인 대화에서 모델이 '혼란스러워하는' 현상을 줄이고, 사용자가 원하는 핵심 정보에 집중하여 일관된 성능을 유지하는 데 중요한 역할을 할 것으로 기대됩니다. 궁극적으로는 LLM이 인간의 사고방식처럼 임시적인 작업 공간과 영구적인 기억을 분리하여 활용하는 데 한 걸음 더 다가서는 계기가 될 것입니다.