yozm.tech
피드로 돌아가기
Hacker News (Top)HOTAI 재작성

Performance per dollar is getting faster and cheaper

AI 추론 수요 폭증과 엔비디아 GPU 가격 상승 속에서, Wafer.ai가 AMD MI355X GPU를 활용해 엔비디아 블랙웰(Blackwell) 대비 2배 이상 저렴한 비용으로 GLM5.2 모델 추론에 성공했습니다. AMD의 소프트웨어 최적화 부족 문제를 해결하며 뛰어난 가성비를 입증, 고비용 AI 추론 시장에 새로운 대안을 제시합니다.

12시간 전·2026.07.03·읽기 1·latchkey

최근 AI 모델의 급증과 함께 추론(inference) 수요가 폭발적으로 늘면서 엔비디아(NVIDIA) GPU 가격이 치솟고 있습니다. 이러한 상황에서 AI 인프라 스타트업 Wafer.ai가 AMD의 MI355X GPU를 활용해 엔비디아 블랙웰(Blackwell) B200 대비 2배 이상 저렴한 비용으로 경쟁력 있는 추론 성능을 달성했다고 발표했습니다. 이는 고비용 AI 추론 시장에 새로운 대안을 제시하며 주목받고 있습니다.

Wafer.ai는 AMD MI355X GPU에서 GLM5.2 대규모 언어모델(LLM)을 구동하며 노드당 초당 2626토큰(tok/s/node)의 처리량을 기록했습니다. 이는 엔비디아 B200 성능의 약 80% 수준이지만, GPU 가격이 2.75배 저렴하다는 점을 고려하면 성능 대비 비용 효율성(performance per dollar) 측면에서 압도적인 우위를 보입니다. 특히, 단일 스트림(single stream)에서는 초당 213토큰을 달성하며 Artificial Analysis 표준에서도 경쟁력을 입증했습니다. 이러한 성과는 Wafer.ai가 AMD의 ROCm 소프트웨어 스택에서 발생하는 최적화 문제를 직접 해결하고, MXFP4 양자화(quantization)와 sglang 추론 프레임워크를 활용하며 달성한 것입니다. 특히, 추측 디코딩(speculative decode) 기능을 활성화하고 혼합 전문가(MoE) 커널을 수동으로 튜닝하는 등 여러 기술적 난관을 극복했습니다.

이번 Wafer.ai의 성과는 AI 추론 시장의 판도를 바꿀 중요한 의미를 가집니다. 엔비디아의 독점적인 지위와 높은 가격으로 인해 AI 개발 및 서비스 비용이 급증하는 상황에서, AMD GPU가 비용 효율적인 대안이 될 수 있음을 실증했기 때문입니다. 비록 AMD 하드웨어가 엔비디아 대비 소프트웨어 지원이 부족하여 최적화에 추가적인 엔지니어링 노력이 필요하지만, Wafer.ai의 사례는 이러한 격차가 점차 줄어들고 있음을 보여줍니다. 이는 장기적으로 AI 인프라 비용을 절감하고, 더 많은 기업과 개발자가 AI 기술에 접근할 수 있도록 하는 긍정적인 영향을 미칠 것으로 예상됩니다.

1인 창업자를 위한 기회 분석
AI 분석 · 참고용이며 검증이 필요합니다
6/10
보통
6점인가

명확한 문제(AMD GPU 최적화 부족)와 높은 비용 절감 잠재력을 제시하며, 특정 기술 스택에 대한 깊은 이해가 있다면 1인 창업자도 틈새시장을 공략할 수 있습니다.

문제 / 미충족 수요

AMD GPU의 잠재력에도 불구하고, 엔비디아 대비 부족한 소프트웨어 지원과 최적화 부재로 인해 실제 AI 추론 성능을 끌어내기 어렵습니다.

한국 시장
국내 미진출 — 기회한국 시장에서도 엔비디아 GPU 의존도가 높고 AMD GPU 최적화 전문가는 드물어, 이 분야의 전문성은 큰 경쟁력이 될 수 있습니다.
수익 모델

B2B SaaS 구독, 컨설팅 및 최적화 서비스 · 돈 내는 주체: AI 모델을 대규모로 서비스하거나 연구하는 기업, 클라우드 서비스 제공자, 스타트업

1인 실현 가능성
3/5

고급 GPU 프로그래밍 및 LLM 최적화 지식이 필요하며, 초기 AMD 하드웨어 접근 비용이 발생할 수 있습니다.

진입 지점 (Wedge)

특정 AMD GPU(예: MI300 시리즈)에서 특정 LLM(예: 한국어 LLM)의 추론 성능을 극대화하는 최적화 솔루션 개발 및 SaaS 제공

이번 주 첫 실험

AMD GPU를 활용하는 국내 AI 스타트업 또는 연구기관을 대상으로, 현재 사용 중인 LLM의 추론 성능 병목 현상과 AMD GPU 도입 의향에 대한 심층 인터뷰를 진행합니다.

Original source
이 글은 Hacker News (Top)의 기사를 yozm.tech가 한국어로 재작성한 버전입니다.
원문 보기