중국의 AI 스타트업 딥시크(DeepSeek)가 대규모 언어모델(LLM)의 추론(inference) 속도를 획기적으로 개선할 수 있는 새로운 오픈소스 프레임워크 'DSpark'를 공개했습니다. 이 프레임워크는 LLM 추론 시 발생하는 병목 현상을 해결하여, 기존 방식 대비 최대 85% 빠른 속도를 제공한다고 딥시크는 밝혔습니다. 이는 AI 서비스의 응답 시간을 단축하고 운영 비용을 절감하는 데 크게 기여할 것으로 예상됩니다.
DSpark는 주로 GPU 활용률을 최적화하는 데 초점을 맞춥니다. LLM 추론은 많은 연산 자원을 필요로 하지만, 기존 시스템에서는 GPU가 항상 효율적으로 사용되지 못하는 문제가 있었습니다. 딥시크는 DSpark가 배치 처리(batching)와 캐싱(caching) 전략을 개선하고, 모델의 병렬 처리 방식을 최적화하여 GPU의 유휴 시간을 최소화한다고 설명합니다. 이를 통해 동일한 하드웨어 자원으로 더 많은 추론 작업을 처리할 수 있게 됩니다. 딥시크는 이미 자체 개발한 LLM인 DeepSeek-V2에 DSpark를 적용하여 성능 향상을 검증한 바 있습니다.
이번 DSpark의 오픈소스 공개는 LLM 기술의 상업적 활용을 가속화하는 중요한 전환점이 될 수 있습니다. 추론 속도와 비용은 LLM 기반 애플리케이션의 확산에 가장 큰 걸림돌 중 하나였는데, DSpark는 이러한 장벽을 낮추는 데 기여할 것입니다. 특히 실시간 응답이 중요한 챗봇, 자동 번역, 콘텐츠 생성 등 다양한 AI 서비스 분야에서 사용자 경험을 크게 개선하고, 개발자들이 더 효율적으로 LLM을 배포하고 운영할 수 있는 기반을 마련할 것으로 기대됩니다.