최근 공개된 'TurboPrefill' 기술이 시각 언어 모델(VLM)의 성능을 획기적으로 개선할 가능성을 보여주었습니다. 이 기술은 모델 자체를 변경하지 않고도 VLM이 답변을 생성하기 전까지의 대기 시간을 절반 가까이 줄이는 데 성공했습니다. 이는 사용자 경험을 크게 향상시킬 수 있는 중요한 진전으로 평가됩니다.
TurboPrefill은 '다중 GPU 프리필(Multi-GPU Prefill)을 위한 인트라 프롬프트 파이프라인 스케줄링(Intra-Prompt Pipeline Scheduling)'이라는 개념을 VLM에 적용한 것입니다. 구체적으로, Qwen2.5-VL-72B-Instruct 모델과 4개의 RTX 5060 Ti GPU 환경에서 테스트한 결과, 답변 시작까지의 대기 시간이 기존 9.0초에서 4.6초로 약 49% 단축되었습니다. 이는 프리필(Prefill) 단계에서의 처리량(throughput)을 303 토큰/초에서 604 토큰/초로 두 배 증가시킨 결과입니다. 주목할 점은 이러한 개선이 모델 가중치, 아키텍처, 양자화, 프롬프트 또는 추론(inference) 계산 방식의 변경 없이 오직 실행 스케줄링 최적화를 통해서만 달성되었다는 것입니다.
이 기술은 VLM뿐만 아니라 텍스트 기반 대규모 언어 모델(LLM)에도 적용 가능하며, NVIDIA 파스칼(Pascal) GPU에서도 유사한 성능 향상을 보여 특정 하드웨어에 국한되지 않는 보편적인 최적화 기회임을 시사합니다. 이는 향후 다양한 GPU 세대에서도 지속적으로 유효할 것으로 예상됩니다. TurboPrefill은 사용자에게 더 빠르고 즉각적인 AI 응답 경험을 제공하여, VLM 기반 애플리케이션의 상업적 활용도를 높이고 AI 서비스의 전반적인 반응성을 개선하는 데 크게 기여할 것입니다.