샤오미(Xiaomi)가 1조(1T) 파라미터급 대규모 언어모델(LLM)인 MiMo-V2.5-Pro-UltraSpeed를 선보이며 AI 추론 속도 분야에서 중요한 이정표를 세웠습니다. 이 모델은 단일 표준 8-GPU 노드에서 초당 1,000토큰(tokens/s) 이상의 디코딩 속도를 달성했는데, 이는 전용 하드웨어 없이 일반적인 상용 GPU만으로 이루어졌다는 점에서 주목할 만합니다.
이러한 혁신적인 속도는 샤오미 MiMo 모델 팀과 TileRT 시스템 팀의 긴밀한 공동 설계(codesign) 결과입니다. 핵심 기술로는 모델 측면에서 대역폭 병목 현상을 줄이기 위한 FP4 양자화(quantization)와 예측 단계당 수용 토큰 길이를 늘리는 DFlash 추측 디코딩(speculative decoding)이 적용되었습니다. 시스템 측면에서는 TileRT가 이러한 알고리즘 특성에 최적화된 컴파일 엔진과 연산 커널을 제공하여, 마이크로초 단위의 연산자 수명에 대응하는 초저지연 추론(low-latency inference)을 가능하게 했습니다. 현재 이 API는 신청 기반의 기간 한정 프로모션으로 제공되며, 기존 MiMo-V2.5 대비 3배 가격에 약 10배 빠른 생성 속도를 표방합니다.
초당 1,000토큰 이상의 속도 돌파는 단순히 빠른 AI를 넘어 AI 애플리케이션의 패러다임 자체를 바꿀 잠재력을 가집니다. 이는 코딩 에이전트(Coding Agent)의 생산성 한계를 해제하고, 실시간 의사결정 루프 진입을 가능하게 하여 고빈도 퀀트 트레이딩, 즉시 이상거래 차단, 실시간 대화, 심지어 수술 보조와 같은 시간 민감 시나리오에서 AI의 활용도를 극대화할 수 있습니다. AI가 더 이상 기다리는 도구가 아닌 '사고의 연장(extension of thinking)'으로 기능하게 되어, 개발자와 사용자 모두에게 전례 없는 생산성과 효율성을 제공할 것으로 기대됩니다.