Efficient On-Device Diffusion LLM Inference with Mobile NPU

스마트폰에서 확산 대규모 언어모델(dLLM)을 효율적으로 구동하기 위한 새로운 추론 프레임워크 'NPU-dLLM'이 개발되었습니다. 이 기술은 모바일 NPU의 잠재력을 최대한 활용하여, 반복적인 토큰 생성 과정에서 발생하는 연산 부담을 크게 줄였습니다. 그 결과, LLaDA-8B 모델의 생성 지연 시간을 최대 42배 단축하며 모바일 기기에서의 AI 경험을 혁신할 잠재력을 보여줍니다.

8시간 전·2026.06.15·읽기 1분·Tuowei Wang, Yanfan Sun, Ju Ren

스마트폰에서 인공지능(AI) 모델을 직접 실행하는 온디바이스(on-device) AI가 주목받는 가운데, 확산 대규모 언어모델(dLLM)의 효율적인 모바일 추론(inference)을 위한 획기적인 기술이 등장했습니다. 새로운 프레임워크 'NPU-dLLM'은 모바일 신경망처리장치(NPU)의 성능을 극대화하여, dLLM의 고질적인 연산 부담 문제를 해결했습니다.

확산 LLM은 여러 토큰을 병렬로 디노이징(denoising)하여 텍스트 생성 속도를 높이는 장점이 있지만, 스마트폰에서는 반복적인 디노이징 과정이 상당한 연산량을 요구했습니다. NPU-dLLM은 이러한 문제를 해결하기 위해 세 가지 핵심 기술을 도입했습니다. 첫째, '멀티 블록 추측 디코딩(Multi-Block Speculative Decoding)'은 초기 블록 디코딩 시 미래 블록 토큰을 미리 추측하여 NPU의 작업 부하를 효율적으로 채웁니다. 둘째, '듀얼 패스 점진적 수정(Dual-Path Progressive Revision)'은 확정된 토큰도 안정화될 때까지 수정 가능하게 유지하고, 불안정한 토큰은 CPU 경로를 통해 업데이트하여 NPU의 밀집 연산을 방해하지 않습니다. 셋째, '스왑 최적화 메모리 런타임(Swap-Optimized Memory Runtime)'은 NPU 가시 주소 공간을 압축하고 데이터 스테이징(staging)과 NPU 연산을 중첩시켜 데이터 전송 오버헤드를 줄입니다. 연구팀은 이 프레임워크를 LLaDA-8B 모델에 적용하여 CPU 기반 방식 대비 생성 지연 시간을 17배에서 최대 42배까지 단축하는 데 성공했으며, 생성 품질은 유지했습니다.

이러한 발전은 모바일 기기에서 대규모 AI 모델을 훨씬 빠르고 효율적으로 구동할 수 있게 함으로써 사용자 경험을 크게 향상시킬 것입니다. 특히, 실시간 응답이 중요한 음성 비서, 온디바이스 번역, 개인화된 콘텐츠 생성 등 다양한 모바일 AI 애플리케이션의 성능을 비약적으로 끌어올릴 잠재력을 가집니다. 개발자들은 NPU-dLLM을 활용하여 저전력 모바일 환경에서도 고품질의 AI 서비스를 제공할 수 있게 되어, 온디바이스 AI 시장의 성장을 가속화할 것으로 기대됩니다.