최근 Z.ai의 최신 오픈소스 대규모 언어모델(LLM)인 GLM 5.2와 앤트로픽(Anthropic)의 클로드 Opus가 동일한 원샷 프롬프트(one-shot prompt)를 받아 브라우저용 3D 플랫폼 게임을 처음부터 개발하는 테스트를 진행했습니다. 이 비교는 두 모델의 실제 코딩 및 에이전트 작업 수행 능력을 보여주며, 오픈소스 모델과 상용 모델 간의 성능 차이와 각자의 강점을 명확히 드러냈습니다.
테스트 결과, 클로드 Opus는 약 33분 30초 만에 게임을 완성하며 GLM 5.2의 1시간 10분 40초보다 훨씬 빠른 속도를 보였습니다. 또한, Opus가 생성한 게임은 텍스처, 애니메이션, 충돌 처리 등 전반적인 완성도 면에서 더 깨끗하고 잘 작동했습니다. 반면 GLM 5.2는 캐릭터 텍스처 누락, 스파이크 함정 미작동, 승리 조건 부재 등 기본적인 버그가 많아 완성도가 떨어졌습니다. 하지만 비용 측면에서는 GLM 5.2가 약 5.39달러로, Opus의 약 21.92달러보다 훨씬 저렴했습니다. GLM 5.2는 Z.ai의 MIT 라이선스 오픈 가중치 모델로, 1M 토큰 컨텍스트와 High/Max 사고 수준을 제공하지만 텍스트 전용이라는 한계가 있습니다. 반면 Opus는 멀티모달 모델로, 생성된 게임의 스크린샷을 직접 검사하여 디버그하는 능력을 보여 품질 차이를 만들었습니다.
이 비교는 대규모 언어모델(LLM) 선택 시 비용, 속도, 정확성, 그리고 멀티모달 기능의 중요성을 강조합니다. GLM 5.2는 오픈 가중치 모델로서 강력한 성능과 낮은 비용을 제공하여, 주로 텍스트와 논리 중심의 작업에서 비용 효율적인 대안이 될 수 있습니다. 반면 클로드 Opus는 시각적 판단과 검증이 필요한 복잡한 코딩 및 에이전트 작업에서 더 빠르고 정확한 결과를 보이며, 높은 비용에도 불구하고 완성도 높은 결과물을 원하는 사용자에게 적합합니다. 결국 사용자는 자신의 프로젝트 요구사항과 예산에 맞춰 두 모델 중 하나를 선택하거나, 혹은 각 모델의 강점을 활용하여 상호 보완적으로 사용하는 전략을 고려할 수 있습니다.