확산 대규모 언어모델(dLLM)은 텍스트 생성 과정에서 토큰을 점진적으로 다듬어 나가지만, 일단 확정된 토큰은 되돌릴 수 없는 특성을 가집니다. 이로 인해 초기 단계에서 내려진 불안정한 결정이 나중에 고착화되어 전체 모델의 정확도에 부정적인 영향을 미치는 '안정성 지연(stability lag)' 현상이 발생합니다. 특히, 모델 경량화를 위한 훈련 후 양자화(PTQ: Post-Training Quantization) 과정에서 이러한 미묘한 초기 결정들이 쉽게 왜곡되어 오류가 증폭되는 문제가 지적되어 왔습니다.
최근 국제 머신러닝 학회(ICML 2026)에서 발표된 'FAIR-Calib'(Frontier-Aware Instability-Reweighted Calibration)은 이러한 dLLM의 양자화 문제를 해결하기 위한 새로운 2단계 프레임워크를 제안합니다. 1단계에서는 전체 정밀도(full-precision) 모델을 '교사(teacher)'로 활용하여, 불안정한 '결정 경계(write frontier)'와 마스크된 단계의 신뢰도를 결합한 '위치 사전(position prior)'을 추정합니다. 2단계에서는 이 정보를 바탕으로 계층별(layer-wise) 보정(calibration)을 수행하며, 특히 불안정한 초기 상태를 보호하는 데 중점을 둡니다. 이는 값비싼 종단 간(end-to-end) 확산 롤아웃 없이도 은닉 상태(hidden-state)의 평균 제곱 오차(MSE)를 최소화하여 양자화 오류를 효과적으로 줄입니다.
FAIR-Calib는 기존 최첨단(state-of-the-art) 양자화 기법 대비 LLaDA 및 Dream(W4A4) 벤치마크에서 우수한 성능을 보였습니다. 이 기술은 결정 경계에서의 토큰 뒤집힘(frontier decision flips)을 크게 줄이고, 일단 확정된 후 발생하는 불일치(post-commit mismatches)를 억제하여 다양한 벤치마크에서 양자화된 dLLM의 견고성을 입증했습니다. 이는 양자화된 dLLM이 더 작고 효율적인 형태로도 높은 정확도를 유지할 수 있음을 의미하며, 향후 온디바이스 AI(on-device AI)나 저전력 환경에서 dLLM을 활용하는 데 중요한 진전을 가져올 것으로 기대됩니다.