The Weight Norm Sets the Grokking Timescale: A Causal Delay Law

신경망(neural network)이 훈련 데이터를 완벽하게 학습한 뒤에도 실제 문제에 대한 일반화(generalization) 능력이 뒤늦게 나타나는 현상을 '그로킹(grokking)'이라고 합니다. 이 현상은 인공지능(AI) 커뮤니티에서 오랫동안 미스터리로 남아 있었으며, 특히 가중치 노름(weight norm)이 그로킹 지연의 원인인지에 대한 논쟁이 뜨거웠습니다. 일부 연구는 특정 임계 노름에서 그로킹이 발생한다고 주장했지만, 다른 연구에서는 고정된 노름 없이도 그로킹이 관찰된다고 반박해왔습니다.

최근 arXiv에 발표된 논문은 가중치 노름에 직접 개입하는 실험을 통해 이 논쟁에 대한 해답을 제시했습니다. 연구팀은 가중치 감소(weight decay)를 적용한 일반적인 훈련 환경에서 신경망이 가중치 노름이 특정 값(Wc)에 도달할 때 그로킹이 발생한다는 사실을 발견했습니다. 이 Wc 값은 초기 시드(seed)나 학습률(learning rate)에 관계없이 매우 일관적(변동 계수 1~2%)이었으며, 모듈러 베이스(modular base)에 따라 거듭제곱 법칙으로 증가하는 경향을 보였습니다. 특히, 가중치 노름을 Wc의 특정 배수(rho)로 고정했을 때, 그로킹 지연 시간은 rho에 대한 지수 함수(T_grok ∝ exp(alpha * rho))를 따르는 것으로 나타났습니다. 여기서 지수(alpha)는 약 7.5로, 네 가지 모듈러스에 걸쳐 높은 정확도(R^2 = 0.996)로 지연 시간을 예측했습니다. 가중치 노름을 고정하는 것만으로 지연 시간이 약 19배까지 달라졌고, 학습률은 약 2배의 변화만 주었으며, Wc보다 높은 노름을 유지해도 그로킹이 지연될 뿐 방지되지는 않았습니다.

이 연구는 그로킹 현상의 근본적인 메커니즘을 이해하는 데 중요한 진전을 이루었습니다. 가중치 노름이 그로킹의 '인과적 지연 법칙(causal delay law)'을 설정한다는 것을 명확히 밝힘으로써, 신경망의 일반화 과정을 더 효과적으로 제어할 수 있는 가능성을 열었습니다. 예를 들어, LayerNorm과 같은 정규화 기법이 가중치 스케일과 네트워크 기능 간의 의존성을 제거하여 이러한 지연 현상을 없앨 수 있다는 점도 확인되었습니다. 이는 AI 모델의 훈련 효율성을 높이고, 예측 불가능한 일반화 지연 문제를 해결하는 데 기여할 수 있는 실마리를 제공합니다. 궁극적으로, 이번 연구는 AI 모델의 신뢰성과 성능을 향상시키는 데 필요한 이론적 기반을 강화할 것으로 기대됩니다.