대규모 언어모델(LLM)의 추론(inference) 속도 개선은 서비스 품질과 비용 효율성에 직결되는 핵심 과제입니다. 최근 딥시크 AI(DeepSeek AI)는 이러한 문제를 해결하기 위해 새로운 추측 디코딩(speculative decoding) 프레임워크 'DSpark'를 발표했습니다. DSpark는 병렬 드래프터(parallel drafter)가 긴 토큰 블록을 한 번에 제안할 때 발생하는 '접미부 붕괴(suffix decay)' 문제를 해결하여, 기존 프로덕션 환경 대비 사용자별 생성 속도를 60~85%까지 가속하는 놀라운 성능을 보여주었습니다.
기존 LLM은 토큰을 하나씩 순차적으로 생성하는 자기회귀(autoregressive) 방식으로 작동합니다. 이는 각 토큰이 이전 토큰에 의존하기 때문에 추론 지연이 출력 길이에 비례하고, GPU 활용도가 낮아지는 병목 현상을 초래합니다. 추측 디코딩은 이러한 한계를 극복하기 위해 경량의 드래프트 모델이 여러 후보 토큰 블록을 미리 제안하고, 메인 타겟 모델이 이를 한 번에 검증하여 품질 손실 없이 가속하는 기술입니다. 하지만 병렬 드래프터는 토큰 간 의존성을 모델링하기 어려워, 긴 블록의 후반부로 갈수록 수락률이 급격히 떨어지는 '접미부 붕괴' 문제를 겪었습니다. DSpark는 이를 해결하기 위해 병렬 백본(parallel backbone)에 경량 순차 모듈(sequential module)을 결합한 준자기회귀 생성 방식과, 토큰별 신뢰도를 예측하고 하드웨어 부하에 맞춰 검증 길이를 동적으로 조절하는 신뢰도 스케줄링(confidence scheduling)을 도입했습니다.
이러한 혁신적인 접근 방식 덕분에 DSpark는 오프라인 벤치마크에서 기존 자기회귀 기반 드래프터인 Eagle3와 병렬 기반 드래프터인 DFlash 대비 일관되게 향상된 수락 길이(accepted length)를 달성했습니다. 특히 DeepSeek-V4 실서비스 배포 시, 기존 프로덕션 기준선인 MTP-1 대비 동일 처리량에서 사용자별 생성 속도를 60~85% 가속하며, 엄격한 상호작용 제약 하에서도 이전에는 도달할 수 없었던 성능 구간을 열었습니다. 이는 LLM 서비스 제공자들이 더 많은 사용자에게 더 빠르고 효율적인 서비스를 제공할 수 있게 하여, 사용자 경험을 혁신하고 운영 비용을 절감하는 데 크게 기여할 것입니다.