반복형 언어모델의 '리드아웃 맹점' 발견

최신 연구에 따르면 반복형 언어모델(Looped Language Models)은 은닉 상태(hidden state)의 모든 변수를 손실 함수(loss function)로 제어하지 못하는 '리드아웃 맹점(Readout Blind Spot)'을 가지고 있습니다. 특히 RMSNorm이나 LayerNorm 같은 스케일 불변 리드아웃(scale-invariant readouts) 사용 시 은닉 상태의 스케일(scale)이 과도하게 커지는 문제가 발생하며, 이는 모델 성능 저하로 이어질 수 있습니다. 연구팀은 스케일을 명확히 드러내거나 루프에서 제거하는 새로운 설계 규칙을 제시했습니다.

1주 전·2026.06.25·읽기 3분·Rituraj Sharma, Tu Vu

반복형 언어모델(Looped Language Models)은 기존 트랜스포머(Transformer) 모델의 병렬 처리 장점과 순환 신경망(Recurrent Neural Network, RNN)의 효율성을 결합한 새로운 아키텍처입니다. 이 모델은 은닉 상태(hidden state)를 런타임 상태(runtime state)로 전환하여 각 상태가 예측을 위해 디코딩되고 다음 계산에 다시 피드백되는 방식으로 작동합니다. 하지만 최근 연구에 따르면, 이러한 반복형 구조에서 교차 엔트로피(cross-entropy) 손실 함수가 모든 은닉 상태 변수를 효과적으로 제어하지 못하는 '리드아웃 맹점(Readout Blind Spot)'이 존재한다는 사실이 밝혀졌습니다.

연구팀은 조밀한 루프별 교차 엔트로피(dense per-loop cross-entropy)가 반복 전이(recurrent transition)에서 활성화되는 모든 변수가 아닌, 리드아웃(readout)에 의해 노출되는 변수만을 제어한다는 것을 발견했습니다. 특히 RMSNorm이나 LayerNorm과 같이 스케일 불변(scale-invariant) 특성을 가진 리드아웃을 사용할 때 문제가 두드러졌습니다. 이들은 은닉 상태의 방사형 스케일(radial scale)을 즉각적인 교차 엔트로피 손실로부터 숨기지만, 사전 정규화 잔차 반복(pre-norm residual recurrence)은 이 스케일을 계속 전달하고 업데이트합니다. 그 결과, 4,400만 개 및 1억 2,900만 개 매개변수를 가진 반복형 트랜스포머 모델에서 루프 간 정규화(inter-loop normalization)가 없을 경우, RMSNorm 리드아웃을 통한 루프별 교차 엔트로피는 최종 은닉 상태의 노름(norm)을 수천 또는 수만 단위로까지 증가시키는 것으로 나타났습니다. 이는 모델의 안정성과 성능에 부정적인 영향을 미칠 수 있습니다.

이러한 문제를 해결하기 위해 연구팀은 두 가지 설계 규칙을 제시했습니다. 첫째, 스케일 가시형 리드아웃(scale-visible readouts)을 사용하거나 명시적인 노름 페널티(norm penalties)를 적용하여 은닉 상태의 스케일을 수십 단위로 유지하는 것입니다. 둘째, 스케일 제거 반복(scale-removing recurrence)이라는 보완적인 아키텍처적 해결책을 적용하여 루프 자체에서 스케일 문제를 제거하는 것입니다. 이 규칙을 따르면 조밀한 감독(dense supervision)은 조기 종료(early exits)를 훈련하는 데 효과적이지만, 반복형 스케일 제어(recurrent scale control)는 스케일을 손실에 가시적으로 만들거나 루프에서 제거해야 합니다. 실제로 스케일 제어가 적용된 모델은 동일한 추론 깊이(inference-depth)에서 더 낮은 혼란도(perplexity)를 달성하여 성능 향상을 입증했습니다. 이는 대규모 언어모델(LLM)의 효율성과 안정성을 높이는 데 중요한 시사점을 제공합니다.