AI 클러스터, 특히 대규모 언어모델(LLM) 추론 인프라를 운영하는 기업들이 겪는 고질적인 문제 중 하나는 바로 GPU 자원 낭비입니다. 이러한 문제를 해결하기 위해 GPU 낭비를 정확하게 찾아내고 비용 절감 효과를 추정해주는 오픈소스 도구 'Piqc'가 최근 공개되어 주목받고 있습니다. Piqc는 쿠버네티스(Kubernetes) 클러스터에서 유휴 GPU 할당, 부적절한 GPU 계층 사용, 그리고 아예 할당되지 않은 GPU 노드 등 세 가지 주요 낭비 유형을 단 1분 안에 감지하고, 이를 금액으로 환산하여 보여줍니다.
Piqc는 에이전트나 사이드카를 영구적으로 설치할 필요 없이, 쿠버네티스 잡(Job) 형태로 실행되어 결과를 출력하고 종료되는 방식으로 작동합니다. 이는 기존 모니터링 도구인 `kubectl top`, `kube-state-metrics`, 프로메테우스(Prometheus) 노드 익스포터(node exporter) 등이 단독으로는 감지하기 어려운 낭비 요소를 찾아낸다는 점에서 차별점을 가집니다. 구체적으로, Piqc는 GPU 자원을 할당받았지만 실제 활용률이 거의 없는 '유휴 할당(Idle allocation)', 모델이 필요로 하는 것보다 훨씬 고사양의 GPU에서 실행되는 '계층 오배치(Tier misplacement)', 그리고 아예 파드(pod)가 스케줄링되지 않은 '암묵적 용량(Dark capacity)'을 식별합니다. 이 도구는 vLLM, Triton, TGI 등 주요 LLM 추론 프레임워크와 `nvidia.com/gpu` 리소스 요청을 사용하는 모든 쿠버네티스 GPU 클러스터에서 호환됩니다.
Piqc가 제공하는 상세 보고서는 각 배포(deployment)별 GPU 활용률, 시간당 비용, 유휴 비용, 그리고 GPU 계층 적합성 등을 한눈에 보여줍니다. 예를 들어, 70B 파라미터(parameter) 모델이 8개의 H100 GPU를 사용하면서도 활용률이 4%에 불과해 하루에 1,500달러 이상 낭비되고 있거나, 7B 모델이 T4 GPU로도 충분하지만 A100 GPU에서 실행되어 낭비가 발생하는 상황 등을 명확히 제시합니다. 이러한 정보를 통해 기업들은 연간 수백만 달러에 달하는 잠재적 낭비 비용을 파악하고, 이를 최적화하여 상당한 운영 비용을 절감할 수 있을 것으로 기대됩니다. Piqc는 AI 인프라의 효율성을 극대화하고, 제한된 예산으로 더 많은 AI 서비스를 제공하려는 조직에 필수적인 도구가 될 것입니다.