GLM-5.2, 오픈 가중치 AI 모델 성능 1위 등극

Z ai가 개발한 대규모 언어모델(LLM) GLM-5.2가 Artificial Analysis Intelligence Index v4.1에서 51점을 기록하며 오픈 가중치(open-weight) 모델 중 최고 성능을 달성했습니다. 이는 MiniMax-M3, DeepSeek V4 Pro(max), Kimi K2.6 등 주요 경쟁 모델들을 제치고 선두에 오른 결과입니다. GLM-5.2는 이전 버전인 GLM-5.1과 동일하게 744B 전체 파라미터와 40B 활성 파라미터 규모를 유지하면서도, 지능 지수(Intelligence Index) 점수를 11점이나 끌어올려 기술적 진보를 입증했습니다.

GLM-5.2의 성능 개선은 다양한 평가 항목에서 두드러지게 나타났습니다. 특히 과학적 추론(scientific reasoning) 능력과 관련된 CritPt에서 16점(21%), HLE에서 12점(40%), GPQA Diamond에서 3점(89%) 상승하는 등 큰 폭의 발전을 보였습니다. 또한, 실세계 에이전트(agent) 성능 지표인 GDPval-AA v2에서는 1524점을 기록하며 MiniMax-M3와 DeepSeek V4 Pro(max)를 앞섰고, 심지어 GPT-5.5(xhigh reasoning)의 1514점과 거의 동등한 수준에 도달했습니다. 비록 태스크당 43k 출력 토큰을 사용해 토큰 효율은 낮은 편이지만, 같은 지능 수준의 모델 중에서는 태스크당 비용이 가장 낮은 축에 속해 비용 대비 성능(Pareto frontier) 면에서 매우 매력적인 위치를 차지하고 있습니다.

이번 GLM-5.2의 출시는 오픈소스 AI 커뮤니티에 큰 의미를 부여합니다. 최첨단 모델들이 특정 기업의 통제 아래 놓이는 경향이 강해지는 가운데, GLM-5.2는 MIT 라이선스로 공개되어 더 많은 개발자와 기업이 혁신적인 AI 기술에 접근하고 활용할 수 있는 길을 열었습니다. 1M 토큰으로 확장된 컨텍스트 윈도우(context window)는 복잡하고 긴 작업을 처리하는 데 유리하며, 다양한 서드파티 제공자를 통해 접근성을 높인 점도 긍정적입니다. 이는 AI 기술의 민주화를 가속화하고, 더 광범위한 AI 애플리케이션 개발을 촉진할 잠재력을 가지고 있습니다.

다만, 일부 사용자들은 GLM-5.2의 높은 출력 토큰 사용량과 그로 인한 추론 효율성에 대한 우려를 제기하기도 합니다. GPT-5.5와 같은 모델들이 더 적은 토큰으로 유사한 지능 수준을 달성하는 점을 고려할 때, 향후 GLM-5.2가 토큰 효율성을 개선하는 것이 중요한 과제가 될 것입니다. 그럼에도 불구하고, GLM-5.2는 공식 API 가격이 경쟁 모델 대비 현저히 저렴하며, 서드파티 제공자를 통해 더욱 저렴하게 이용할 수 있는 옵션도 존재하여 비용에 민감한 사용자들에게는 매우 매력적인 선택지가 될 것으로 예상됩니다. 이는 대규모 언어모델의 접근성을 높여 AI 기술의 대중화에 기여할 것입니다.