최근 발표된 연구 논문에서 ‘WAV v1’이라는 새로운 잔차 연결(residual connection) 기법이 제안되었습니다. 이 기술은 심층 디코더 전용 트랜스포머(decoder-only Transformers) 모델의 학습 안정성과 성능을 개선하는 데 초점을 맞춥니다. 기존 트랜스포머의 잔차 연결은 서브레이어(sublayer) 업데이트를 고정된 가중치로 단순히 합산했지만, WAV v1은 블록 내부의 미세한 잔차 정보를 다중 해상도로 분석하여 모델이 더 깊어져도 안정적으로 학습하고 성능을 높일 수 있도록 돕습니다.
WAV v1은 각 블록의 누적 잔차 합계뿐만 아니라, 어텐션(attention)과 MLP(Multi-Layer Perceptron) 업데이트 간의 위상(phase) 차이, 그리고 블록 내 초기 및 후기 서브레이어 업데이트 간의 분할(split) 차이 등 두 가지 방향성 세부 정보를 추가로 활용합니다. 이 세부 정보들은 표준 블록 요약과 함께 동일한 심층 소프트맥스(softmax) 믹서로 라우팅되며, 훈련 안정화를 위해 음의 세부 소스 초기화(negative detail-source initialization)와 분리된 RMS 매칭(detached RMS matching) 기법이 적용됩니다. 실험 결과, 12개 층에서는 큰 이점이 없었지만, 24개 층에서는 경쟁력을 보였고, 특히 48개 층에서는 기존 블록 어텐션 잔차(Block Attention Residuals) 방식 대비 TinyStories 데이터셋에서 검증 손실(validation loss)을 0.4960에서 0.4738로, Text8 데이터셋에서는 0.9363에서 0.9305로 감소시키며 모든 기준선을 능가했습니다. 이는 추가 파라미터(parameter)가 거의 없이 달성된 성과입니다.
이 연구 결과는 단순히 블록 수준의 합계뿐만 아니라 방향성 잔차 세부 정보가 심층 트랜스포머에서 잔차 라우팅(residual routing)을 확장하는 데 중요함을 시사합니다. WAV v1과 같은 기술은 대규모 언어모델(LLM)의 층(layer) 수를 늘려 성능을 극대화하려는 시도에 중요한 발판이 될 수 있습니다. 모델이 깊어질수록 학습이 불안정해지고 성능이 정체되는 문제를 해결함으로써, 향후 더욱 크고 복잡한 AI 모델 개발에 기여할 잠재력을 가지고 있습니다.