최근 AI 모델의 급증과 함께 추론(inference) 수요가 폭발적으로 늘면서 엔비디아(NVIDIA) GPU 가격이 치솟고 있습니다. 이러한 상황에서 AI 인프라 스타트업 Wafer.ai가 AMD의 MI355X GPU를 활용해 엔비디아 블랙웰(Blackwell) B200 대비 2배 이상 저렴한 비용으로 경쟁력 있는 추론 성능을 달성했다고 발표했습니다. 이는 고비용 AI 추론 시장에 새로운 대안을 제시하며 주목받고 있습니다.
Wafer.ai는 AMD MI355X GPU에서 GLM5.2 대규모 언어모델(LLM)을 구동하며 노드당 초당 2626토큰(tok/s/node)의 처리량을 기록했습니다. 이는 엔비디아 B200 성능의 약 80% 수준이지만, GPU 가격이 2.75배 저렴하다는 점을 고려하면 성능 대비 비용 효율성(performance per dollar) 측면에서 압도적인 우위를 보입니다. 특히, 단일 스트림(single stream)에서는 초당 213토큰을 달성하며 Artificial Analysis 표준에서도 경쟁력을 입증했습니다. 이러한 성과는 Wafer.ai가 AMD의 ROCm 소프트웨어 스택에서 발생하는 최적화 문제를 직접 해결하고, MXFP4 양자화(quantization)와 sglang 추론 프레임워크를 활용하며 달성한 것입니다. 특히, 추측 디코딩(speculative decode) 기능을 활성화하고 혼합 전문가(MoE) 커널을 수동으로 튜닝하는 등 여러 기술적 난관을 극복했습니다.
이번 Wafer.ai의 성과는 AI 추론 시장의 판도를 바꿀 중요한 의미를 가집니다. 엔비디아의 독점적인 지위와 높은 가격으로 인해 AI 개발 및 서비스 비용이 급증하는 상황에서, AMD GPU가 비용 효율적인 대안이 될 수 있음을 실증했기 때문입니다. 비록 AMD 하드웨어가 엔비디아 대비 소프트웨어 지원이 부족하여 최적화에 추가적인 엔지니어링 노력이 필요하지만, Wafer.ai의 사례는 이러한 격차가 점차 줄어들고 있음을 보여줍니다. 이는 장기적으로 AI 인프라 비용을 절감하고, 더 많은 기업과 개발자가 AI 기술에 접근할 수 있도록 하는 긍정적인 영향을 미칠 것으로 예상됩니다.