인공지능(AI) 모델, 특히 대규모 언어모델(LLM)은 복잡한 추론(reasoning) 작업을 수행할 때 많은 연산 자원을 소모합니다. 이 과정에서 불필요한 연산을 줄이고 효율성을 높이기 위해 '조기 종료(early exit)' 전략이 연구되고 있는데, 언제 이 전략을 적용해야 가장 효과적인지는 명확하지 않았습니다. 최근 발표된 'LearnStop' 연구는 이러한 의문에 답하기 위해 다양한 작업 환경에서 조기 종료의 유용성을 심층적으로 분석했습니다.
LearnStop은 모델의 숨겨진 상태(hidden state)에 의존하지 않고, 추론 과정의 특정 시점(체크포인트)에서 현재까지의 답변 접두사(prefix)를 기반으로 정답 여부를 예측합니다. 이를 위해 답변 신뢰도(confidence), 엔트로피(entropy), 접두사 투표 점유율(prefix vote share), 답변 안정성(answer stability), 되돌리기(backtracking) 표시 밀도 등 여러 온라인 특징(online features)을 활용합니다. 연구진은 GSM8K, MATH-500, MMLU-Pro 등 18가지 작업-모델 설정에서 LearnStop을 테스트했으며, 그 결과 조기 종료의 유용성이 작업의 종류에 따라 크게 달라진다는 것을 발견했습니다. 특히 자유 형식 수학 문제(free-form math)에서는 LearnStop과 같은 다중 특징 기반의 학습된 종료 규칙이 고정 예산(fixed-budget) 내에서 성능을 크게 향상시키며, 단순한 신뢰도 기반 종료보다 우수함을 입증했습니다. 예를 들어, Qwen3-32B 모델로 GSM8K 작업을 수행했을 때, LearnStop은 기존 스칼라(scalar) 기준보다 0.028의 성능 향상을 보였습니다.
반면, 객관식 문제나 매우 어려운 설정에서는 단순한 신뢰도, 엔트로피, 안정성 규칙이 LearnStop과 비슷하거나 더 강력한 성능을 보이기도 했습니다. 이는 학습된 종료 규칙이 모든 상황에서 만능 해결책이 아니라, 추론 궤적(trajectory structure)의 특성에 따라 그 가치가 달라지는 도구임을 시사합니다. 이 연구는 특정 시그널만으로는 조기 종료 시점을 파악하기 어려운 복잡한 문제에서 LearnStop이 특히 유용하며, 신뢰도나 답변 수렴(answer convergence)만으로도 충분히 종료 문제를 해결할 수 있는 경우에는 그 이점이 줄어든다는 실용적인 결론을 제시합니다. 결과적으로 AI 모델 개발자와 운영자는 작업의 특성을 고려하여 가장 적합한 조기 종료 전략을 선택함으로써 연산 비용을 최적화하고 모델의 효율성을 극대화할 수 있을 것입니다.