최근 대규모 언어 모델(LLM)이 텍스트 생성의 혁명을 가져왔지만, 새로운 대안으로 확산 언어 모델(Diffusion Language Models, DLM)이 떠오르고 있습니다. DLM은 기존 LLM의 토큰 단위 예측(next-token prediction) 방식과 달리, 반복적인 노이즈 제거(iterative denoising) 과정을 통해 전체 텍스트 시퀀스를 병렬로 생성하는 패러다임을 제시합니다. 이는 텍스트 생성 방식에 있어 근본적인 변화를 의미하며, 특정 작업에서 LLM의 한계를 보완할 가능성을 열어줍니다.
Thomas Bertolani 외 연구진은 8가지 최신 DLM 아키텍처를 추론, 코딩, 번역, 지식, 구조화된 문제 해결 등 8가지 벤치마크에서 체계적으로 평가했습니다. 이 연구는 단순히 생성 품질뿐만 아니라 계산 효율성까지 종합적으로 고려하여 DLM의 강점과 한계를 분석했습니다. 특히 노이즈 제거 단계, 컨텍스트 길이, 블록 크기, 병렬 언마스킹 전략 등 추론 시 주요 요인들이 DLM의 성능에 미치는 영향을 심층적으로 탐구했으며, 동일한 조건에서 훈련된 소규모 모델 간의 비교도 병행하여 신뢰도를 높였습니다.
이번 분석 결과는 DLM이 다양한 작업, 아키텍처, 추론 예산에 따라 LLM과 다른 독특한 성능 및 효율성 균형점을 제공한다는 점을 밝혀냈습니다. 특히 생성 시 설계 선택이 DLM의 동작에 강력한 영향을 미치며, 이는 성능과 계산 효율성 사이의 뚜렷한 상충 관계(trade-off)로 이어진다는 점을 강조합니다. 이 연구는 현대 DLM의 역량과 실제 배포 특성에 대한 실용적인 통찰력을 제공하며, 향후 텍스트 생성 모델 개발 방향에 중요한 시사점을 던지고 있습니다.