최근 Z.ai가 공개한 오픈소스 대규모 언어모델(LLM) GLM-5.2가 앤트로픽(Anthropic)의 플래그십 모델인 클로드 오퍼스(Claude Opus)와 흥미로운 비교 테스트를 거쳤습니다. 이 테스트는 두 AI 모델에게 복잡한 3D 플랫폼 게임을 WebGL로 처음부터 개발하도록 지시하는 방식으로 진행되었으며, GLM-5.2는 오퍼스보다 훨씬 저렴한 비용으로 경쟁력 있는 결과물을 만들어내며 오픈소스 AI의 가능성을 보여주었습니다.
테스트 결과, 클로드 오퍼스는 약 33분 30초 만에 게임을 완성하여 GLM-5.2의 1시간 10분 40초보다 두 배 가까이 빨랐으며, 더 깔끔하고 정확한 코드를 생성했습니다. 또한, 오퍼스는 시각적 출력을 직접 확인할 수 있는 멀티모달(multimodal) 기능을 갖춘 반면, GLM-5.2는 텍스트 전용 모델이라는 한계가 있었습니다. 그러나 비용 측면에서는 GLM-5.2가 압도적이었습니다. 오퍼스가 약 21.92달러(추정)가 소요된 반면, GLM-5.2는 5.39달러로 1/4 수준에 불과했습니다. 특히 출력 토큰(output tokens) 기준으로 GLM-5.2는 오퍼스 가격의 5분의 1 미만이었습니다. GLM-5.2는 100만 토큰 컨텍스트 윈도우(context window)를 지원하며, MIT 라이선스로 가중치(weights)가 공개되어 누구나 다운로드하여 자체적으로 실행하거나 Z.ai의 API를 통해 사용할 수 있습니다.
이번 비교는 단순히 성능 우열을 가리는 것을 넘어, 오픈소스 AI 모델의 전략적 가치를 부각합니다. 클로드 오퍼스가 여전히 최고 성능을 자랑하지만, GLM-5.2는 합리적인 비용으로 고품질의 장기 코딩 작업(long-horizon tasks)을 수행할 수 있는 대안을 제시합니다. 특히 가중치가 공개된 오픈소스 모델은 언제든 접근 가능하여 폐쇄형 모델이 예고 없이 중단되거나 제한될 위험을 회피할 수 있다는 큰 장점이 있습니다. 이는 개발자들에게 더 큰 유연성과 통제권을 제공하며, AI 생태계의 다양성과 혁신을 촉진하는 중요한 요소로 작용할 것입니다.
