반복형 언어모델(Looped Language Models)은 기존 트랜스포머(Transformer) 모델의 병렬 처리 장점과 순환 신경망(Recurrent Neural Network, RNN)의 효율성을 결합한 새로운 아키텍처입니다. 이 모델은 은닉 상태(hidden state)를 런타임 상태(runtime state)로 전환하여 각 상태가 예측을 위해 디코딩되고 다음 계산에 다시 피드백되는 방식으로 작동합니다. 하지만 최근 연구에 따르면, 이러한 반복형 구조에서 교차 엔트로피(cross-entropy) 손실 함수가 모든 은닉 상태 변수를 효과적으로 제어하지 못하는 '리드아웃 맹점(Readout Blind Spot)'이 존재한다는 사실이 밝혀졌습니다.
연구팀은 조밀한 루프별 교차 엔트로피(dense per-loop cross-entropy)가 반복 전이(recurrent transition)에서 활성화되는 모든 변수가 아닌, 리드아웃(readout)에 의해 노출되는 변수만을 제어한다는 것을 발견했습니다. 특히 RMSNorm이나 LayerNorm과 같이 스케일 불변(scale-invariant) 특성을 가진 리드아웃을 사용할 때 문제가 두드러졌습니다. 이들은 은닉 상태의 방사형 스케일(radial scale)을 즉각적인 교차 엔트로피 손실로부터 숨기지만, 사전 정규화 잔차 반복(pre-norm residual recurrence)은 이 스케일을 계속 전달하고 업데이트합니다. 그 결과, 4,400만 개 및 1억 2,900만 개 매개변수를 가진 반복형 트랜스포머 모델에서 루프 간 정규화(inter-loop normalization)가 없을 경우, RMSNorm 리드아웃을 통한 루프별 교차 엔트로피는 최종 은닉 상태의 노름(norm)을 수천 또는 수만 단위로까지 증가시키는 것으로 나타났습니다. 이는 모델의 안정성과 성능에 부정적인 영향을 미칠 수 있습니다.
이러한 문제를 해결하기 위해 연구팀은 두 가지 설계 규칙을 제시했습니다. 첫째, 스케일 가시형 리드아웃(scale-visible readouts)을 사용하거나 명시적인 노름 페널티(norm penalties)를 적용하여 은닉 상태의 스케일을 수십 단위로 유지하는 것입니다. 둘째, 스케일 제거 반복(scale-removing recurrence)이라는 보완적인 아키텍처적 해결책을 적용하여 루프 자체에서 스케일 문제를 제거하는 것입니다. 이 규칙을 따르면 조밀한 감독(dense supervision)은 조기 종료(early exits)를 훈련하는 데 효과적이지만, 반복형 스케일 제어(recurrent scale control)는 스케일을 손실에 가시적으로 만들거나 루프에서 제거해야 합니다. 실제로 스케일 제어가 적용된 모델은 동일한 추론 깊이(inference-depth)에서 더 낮은 혼란도(perplexity)를 달성하여 성능 향상을 입증했습니다. 이는 대규모 언어모델(LLM)의 효율성과 안정성을 높이는 데 중요한 시사점을 제공합니다.
