클라우드 플랫폼에서 마이크로서비스의 지능적인 자원 할당(resource allocation)은 급증하는 컴퓨팅 비용을 절감하고 서비스 중단을 방지하는 데 핵심적인 요소입니다. 현재 대부분의 클라우드 자원 관리 솔루션은 CPU 사용량과 같은 단일 지표에만 의존하며, 단순히 예측 정확도에 초점을 맞춰 자원 할당 결정을 내립니다. 하지만 이러한 방식은 자원 부족으로 인한 서비스 지연이나 과도한 자원 할당으로 인한 비용 낭비 등 실제 운영 환경의 복잡한 문제를 해결하는 데 한계가 있었습니다.
월마트 연구진은 이러한 문제를 해결하기 위해 'STARIXNet'이라는 경량 신경망 모델을 개발했습니다. STARIXNet은 여러 시스템 지표(multivariate) 간의 시공간적 관계를 포착하여 자원 할당 결정을 내리는 다중 속성(multi-attribute) 딥러닝 접근 방식을 사용합니다. 특히, 계절성(Seasonal), 시간성(Temporal), 자기회귀 통합(Auto-Regressive Integrated), 외생적 패턴(eXogenous patterns) 등 여러 준독립적인 속성들을 모델링하고, 서비스 안정성을 최우선으로 고려한 후 비용 효율성을 따르는 집계 정책을 통해 최종 스케일링 결정을 내립니다. 이 모델은 기존 솔루션 대비 계산 복잡도가 낮아 대규모 실시간 배포에 적합하며, 월마트의 핵심 프로덕션 마이크로서비스에 실제로 배포되어 그 성능을 입증했습니다.
STARIXNet은 실제 운영 환경에서 10%에서 최대 50%에 이르는 상당한 컴퓨팅 비용 절감 효과를 가져왔습니다. 이는 단순히 비용 절감뿐만 아니라 서비스 안정성 향상과 고객 경험 개선이라는 무형의 이점까지 제공합니다. 이 연구는 클라우드 자원 관리 분야에서 단일 지표 예측을 넘어 다중 지표와 실제 운영 환경의 우선순위를 고려하는 새로운 접근 방식의 중요성을 보여줍니다. 앞으로 클라우드 비용 최적화와 서비스 품질 유지를 동시에 달성하려는 기업들에게 중요한 참고 자료가 될 것으로 예상됩니다.