최근 발표된 연구 논문은 트랜스포머(Transformer) 모델의 학습 과정에서 가중치(weight) 분포의 핵심 지표인 와이블 스케일(Weibull weight-scale) 매개변수 람다(λ)가 어떻게 진화하는지에 대한 심층 분석을 제공합니다. 특히, 널리 사용되는 최적화 기법인 AdamW 훈련 역학을 중심으로 람다 값이 증가하고, 과도하게 커졌다가 다시 안정화되는 현상의 원인을 세 가지 '힘'으로 분해하여 설명했습니다.
이 연구는 AdamW 업데이트에서 발생하는 세 가지 주요 힘, 즉 가중치와 적응형 업데이트 방향 간의 상관관계를 측정하는 '정렬(alignment) 힘', 적응형 스텝 크기에서 비롯되는 '주입(injection) 힘', 그리고 분리된 가중치 감쇠(weight decay)에서 오는 '감쇠(decay) 힘'을 도출했습니다. 자체 훈련된 Pythia-70M 모델을 사용한 실험에서, 람다 값이 상승하는 초기 단계에서는 정렬 힘이 절대적인 힘 예산의 88~94%를 차지하며 지배적인 역할을 하는 것으로 나타났습니다. 모델이 포화 상태에 가까워지면 정렬 힘과 감쇠 힘이 균형을 이루면서 람다 값의 성장이 멈추고 안정화되는 현상을 설명합니다. 또한, 옵티마이저 모멘트(optimizer moments)를 직접 사용할 수 없는 실제 모델에 적용하기 위해 스플라인 변위(spline displacement) 방법을 도입, 희소한 체크포인트(checkpoint)만으로도 정렬 힘을 약 92~94%의 정확도로 복구할 수 있음을 보였습니다.
이러한 분석은 대규모 언어모델(LLM)과 같은 트랜스포머 기반 모델의 훈련 과정을 더 깊이 이해하고 제어하는 데 중요한 통찰력을 제공합니다. 가중치 분포의 동역학을 명확히 파악함으로써, 개발자들은 학습률(learning rate) 스케줄링, 가중치 감쇠 전략 등 AdamW 옵티마이저의 하이퍼파라미터(hyperparameter)를 보다 효과적으로 조정하여 모델의 수렴 속도를 높이고 성능을 최적화할 수 있을 것입니다. 궁극적으로 이는 더욱 안정적이고 효율적인 AI 모델 개발에 기여할 수 있는 기반 지식이 될 것으로 예상됩니다.