news.hada.ioHOTAI 재작성

달러당 성능이 더 빠르고 저렴해지고 있음

인공지능(AI) 추론 수요가 급증하며 엔비디아(NVIDIA) GPU 가격과 토큰 비용이 상승하는 가운데, AMD의 MI355X가 엔비디아 B300 대비 GPU당 약 2.75배 저렴한 비용 효율적인 대안으로 주목받고 있습니다. Wafer.ai의 최적화 결과, MI355X는 엔비디아 B200 성능의 80% 수준을 달성하며, AMD의 소프트웨어 지원 개선이 핵심 과제로 떠올랐습니다.

6시간 전·2026.07.04·읽기 1분·neo https://news.hada.io/user/neo

인공지능(AI) 모델의 추론(inference) 수요가 폭발적으로 증가하면서 엔비디아(NVIDIA) GPU의 공급 부족과 가격 상승, 그리고 AI 모델 사용에 필요한 토큰(token) 비용 증가가 심화되고 있습니다. 이러한 상황에서 AMD의 최신 인스팅트(Instinct) MI355X GPU가 엔비디아 B300 대비 GPU당 평균 약 2.75배 저렴한 가격으로 고성능 AI 추론을 제공하는 매력적인 대안으로 떠오르고 있습니다.

AI 인프라 기업 웨이퍼(Wafer.ai)는 AMD MI355X에서 대규모 언어모델(LLM)인 GLM-5.2를 최적화하여 인상적인 성능을 시연했습니다. 20k 입력/1k 출력 및 60% 캐시 히트율(cache hit rate) 워크로드에서 초당 2626 토큰(tok/s/node)과 초당 2.4 요청(rps)을 달성했는데, 이는 엔비디아 B200 측정 성능의 약 80%에 해당하는 수치입니다. 특히, 이번 최적화는 커스텀 커널(custom kernel) 작성 없이 프레임워크 버그 수정, 양자화(quantization), 추측 디코딩(speculative decode), MoE(Mixture-of-Experts) 커널 선택 튜닝만으로 이루어져, AMD의 하드웨어 잠재력이 소프트웨어 지원을 통해 충분히 발휘될 수 있음을 보여주었습니다.

AMD MI350 계열은 실리콘(silicon) 수준에서 엔비디아의 블랙웰(Blackwell) 아키텍처와 경쟁할 수 있는 하드웨어 사양을 갖추고 있습니다. 그러나 엔비디아는 ‘day-0’ 지원(최신 모델 출시와 동시에 최적화된 소프트웨어 지원)과 강력한 소프트웨어 생태계(CUDA) 덕분에 최신 모델 추론을 더 빠르고 효율적으로 제공하는 우위를 점하고 있습니다. 웨이퍼의 이번 성과는 AMD가 소프트웨어 지원 문제를 해결한다면 엔비디아와의 격차를 크게 줄일 수 있음을 시사하며, AI 인프라 시장에 더 많은 경쟁과 혁신을 가져올 중요한 전환점이 될 수 있습니다. 이는 결국 AI 서비스 제공 기업들이 더 저렴한 비용으로 고성능 AI를 운영할 수 있게 하여, AI 대중화에 기여할 것으로 기대됩니다.

1인 창업자를 위한 기회 분석

AI 분석 · 참고용이며 검증이 필요합니다

6/10

보통

왜 6점인가

AMD GPU의 비용 효율성이라는 명확한 장점이 있으나, 소프트웨어 최적화라는 기술적 난이도와 시장의 엔비디아 의존도가 높습니다.

문제 / 미충족 수요

AI 추론 비용이 높고, 엔비디아 GPU 공급이 제한적이며, AMD GPU는 소프트웨어 지원이 부족하여 최신 모델 최적화에 어려움이 있습니다.

한국 시장

국내 있음한국에서도 엔비디아 GPU 의존도가 높고, AMD GPU 활용에 대한 소프트웨어 최적화 수요가 존재합니다.

수익 모델

B2B SaaS 구독, 컨설팅 및 최적화 서비스 · 돈 내는 주체: AI 모델을 운영하는 스타트업, 중소기업, 연구 기관 등

1인 실현 가능성

3/5

하드웨어 접근성 및 전문적인 최적화 기술이 필요하지만, 특정 니치 시장에 집중하면 1인 창업도 가능합니다.

진입 지점 (Wedge)

특정 AMD GPU(예: MI355X)와 특정 LLM(예: GLM-5.2) 조합에 대한 최적화 컨설팅 및 배포 자동화 SaaS를 제공하여, 초기에는 소규모 AI 스타트업이나 연구 기관을 타겟팅합니다.

이번 주 첫 실험

AMD GPU를 사용하는 국내 AI 스타트업 또는 연구 기관을 대상으로, 현재 겪고 있는 LLM 추론 최적화 문제점을 파악하기 위한 인터뷰를 진행합니다.

Original source

이 글은 news.hada.io의 기사를 yozm.tech가 한국어로 재작성한 버전입니다.

원문 보기