인공지능(AI) 모델의 추론(inference) 수요가 폭발적으로 증가하면서 엔비디아(NVIDIA) GPU의 공급 부족과 가격 상승, 그리고 AI 모델 사용에 필요한 토큰(token) 비용 증가가 심화되고 있습니다. 이러한 상황에서 AMD의 최신 인스팅트(Instinct) MI355X GPU가 엔비디아 B300 대비 GPU당 평균 약 2.75배 저렴한 가격으로 고성능 AI 추론을 제공하는 매력적인 대안으로 떠오르고 있습니다.
AI 인프라 기업 웨이퍼(Wafer.ai)는 AMD MI355X에서 대규모 언어모델(LLM)인 GLM-5.2를 최적화하여 인상적인 성능을 시연했습니다. 20k 입력/1k 출력 및 60% 캐시 히트율(cache hit rate) 워크로드에서 초당 2626 토큰(tok/s/node)과 초당 2.4 요청(rps)을 달성했는데, 이는 엔비디아 B200 측정 성능의 약 80%에 해당하는 수치입니다. 특히, 이번 최적화는 커스텀 커널(custom kernel) 작성 없이 프레임워크 버그 수정, 양자화(quantization), 추측 디코딩(speculative decode), MoE(Mixture-of-Experts) 커널 선택 튜닝만으로 이루어져, AMD의 하드웨어 잠재력이 소프트웨어 지원을 통해 충분히 발휘될 수 있음을 보여주었습니다.
AMD MI350 계열은 실리콘(silicon) 수준에서 엔비디아의 블랙웰(Blackwell) 아키텍처와 경쟁할 수 있는 하드웨어 사양을 갖추고 있습니다. 그러나 엔비디아는 ‘day-0’ 지원(최신 모델 출시와 동시에 최적화된 소프트웨어 지원)과 강력한 소프트웨어 생태계(CUDA) 덕분에 최신 모델 추론을 더 빠르고 효율적으로 제공하는 우위를 점하고 있습니다. 웨이퍼의 이번 성과는 AMD가 소프트웨어 지원 문제를 해결한다면 엔비디아와의 격차를 크게 줄일 수 있음을 시사하며, AI 인프라 시장에 더 많은 경쟁과 혁신을 가져올 중요한 전환점이 될 수 있습니다. 이는 결국 AI 서비스 제공 기업들이 더 저렴한 비용으로 고성능 AI를 운영할 수 있게 하여, AI 대중화에 기여할 것으로 기대됩니다.