최근 한 연구에 따르면, 마이크로소프트 애저(Microsoft Azure), 아마존 세이지메이커(Amazon SageMaker), 구글 버텍스 AI(Google Vertex AI)와 같은 주요 서버리스 클라우드 플랫폼에서 대규모 언어모델(LLM)을 배포할 경우, 동일한 모델이라도 배포 시점이나 제공업체에 따라 다른 결과물을 내놓을 수 있는 것으로 나타났습니다. 이는 LLM 기반 서비스의 예측 가능성과 안정성에 대한 중요한 의문을 제기합니다.
연구팀은 여러 클라우드 제공업체에 동일한 LLM을 배포하고 같은 프롬프트(prompt)를 반복적으로 입력하여 응답의 일관성을 측정했습니다. 그 결과, 일부 경우에서는 답변의 내용, 형식, 심지어는 감성까지도 미묘하게 달라지는 현상이 관찰되었습니다. 이러한 차이는 주로 모델의 미세조정(fine-tuning) 버전, 하드웨어 환경, 소프트웨어 스택(예: 라이브러리 버전, 최적화 설정) 등 서버리스 환경의 동적인 특성에서 비롯될 수 있습니다. 클라우드 제공업체는 서비스 최적화를 위해 백엔드 인프라를 수시로 업데이트하기 때문에, 사용자가 인지하지 못하는 사이에 모델 동작에 영향을 줄 수 있는 변경이 발생할 수 있습니다.
이러한 현상은 LLM을 활용하는 기업과 개발자에게 중대한 시사점을 던집니다. 특히 금융, 의료, 법률 등 높은 정확성과 일관성이 요구되는 분야에서는 예측 불가능한 모델 동작이 심각한 문제를 초래할 수 있습니다. LLM 기반 애플리케이션의 신뢰성을 확보하기 위해서는 배포 환경에 따른 모델 동작 변화를 면밀히 모니터링하고, 잠재적인 불일치를 관리할 수 있는 전략을 수립해야 합니다. 이는 단순히 모델 자체의 성능을 넘어, 모델이 운영되는 인프라 환경까지 고려한 포괄적인 접근 방식이 필요함을 의미합니다.