최근 AMD의 새로운 APU(가속처리장치)인 스틱스 헤일로(Strix Halo) 두 대를 활용해 대규모 언어모델(LLM) 추론 클러스터를 구축하는 상세한 가이드가 깃허브(GitHub)에 공개되어 IT 커뮤니티의 주목을 받고 있습니다. 이 가이드는 인텔 E810(RoCE v2) 네트워크 카드를 통해 두 노드를 연결하고, vLLM 추론 엔진과 레이(Ray) 분산 컴퓨팅 프레임워크를 이용해 텐서 병렬화(Tensor Parallelism) 방식으로 LLM을 구동하는 방법을 설명합니다. 이는 단일 APU의 한계를 넘어 더 큰 모델을 효율적으로 처리하고, 추론 속도를 극대화하는 데 중점을 둡니다.
이 클러스터의 핵심 기술은 RoCE v2(RDMA over Converged Ethernet)입니다. RDMA(Remote Direct Memory Access)는 CPU와 운영체제(OS) 커널을 우회하여 한 노드의 메모리에서 다른 노드의 메모리로 데이터를 직접 전송할 수 있게 하는 프로토콜입니다. 일반적인 TCP/IP 통신이 약 70~100마이크로초(µs)의 지연 시간을 갖는 반면, RDMA는 약 5마이크로초로 지연 시간을 획기적으로 줄여줍니다. 이는 AMD의 RCCL(ROCm Collective Communication Library)이 엔비디아(NVIDIA)의 NCCL처럼 GPU 간 고속 데이터 동기화를 처리하는 데 필수적입니다. 특히 텐서 병렬화(TP=2)를 사용할 때, 신경망의 모든 레이어 이후 부분 결과값을 초당 수천 번 교환해야 하므로, 이처럼 낮은 지연 시간은 LLM 추론 성능에 결정적인 영향을 미칩니다. 가이드에서는 페도라(Fedora) 43 운영체제 기반의 호스트 설정, 네트워크 카드 펌웨어 업데이트, BIOS 및 커널 설정, 방화벽 규칙 등 세부적인 구성 단계를 제공합니다.
이러한 클러스터 구성은 AMD 스틱스 헤일로(Strix Halo) APU의 잠재력을 최대한 활용하여 고성능 LLM 추론 환경을 구축할 수 있음을 보여줍니다. 특히, 두 대의 저전력 APU를 연결하여 단일 고성능 GPU에 준하는 추론 능력을 구현할 수 있다는 점에서 의미가 큽니다. 이는 비용 효율적인 방식으로 LLM을 구동하고자 하는 연구실, 스타트업, 혹은 개인 개발자들에게 매력적인 대안이 될 수 있습니다. 고성능 컴퓨팅(HPC) 환경이나 엣지 디바이스에서의 AI 추론 성능 향상에도 기여할 수 있으며, 향후 더 많은 APU 기반 클러스터 구축 사례가 등장할 가능성을 시사합니다.