최근 코드 보안 분석 기업 셈그랩(Semgrep)의 벤치마크 결과에 따르면, 중국 지푸 AI(Zhipu AI)가 개발한 오픈웨이트(open-weight) 모델 GLM 5.2가 코드 취약점 탐지 성능에서 앤트로픽(Anthropic)의 클로드 코드(Claude Code)를 뛰어넘는 놀라운 성과를 보여줬습니다. 특히 IDOR(Insecure Direct Object Reference, 간접 객체 참조 취약점) 탐지 벤치마크에서 GLM 5.2는 39%의 F1 점수를 기록하며, 클로드 코드의 32%를 앞섰습니다. 이는 모델 주변의 복잡한 보조 시스템(harness) 없이 순수 모델 성능만으로 달성한 결과여서 더욱 의미가 큽니다.
GLM 5.2는 7,500억 개의 매개변수를 가진 MoE(Mixture-of-Experts) 모델로, 토큰당 약 400억 개의 매개변수만 활성화되어 추론(inference) 비용을 절감합니다. 또한, 20만 토큰에서 최대 100만 토큰까지 확장된 컨텍스트(context)를 안정적으로 처리할 수 있어, 여러 파일에 걸쳐 복잡한 로직을 분석해야 하는 보안 작업에 특히 유리합니다. 셈그랩은 GLM 5.2가 표준 코딩 벤치마크인 터미널-벤치 2.1(Terminal-Bench 2.1)에서 81.0점, SWE-벤치 프로(SWE-bench Pro)에서 62.1점을 기록하며 최상위 비공개 모델들과 견줄 만한 성능을 보였다고 밝혔습니다. 뿐만 아니라, GLM 5.2의 토큰 비용은 경쟁 모델의 약 6분의 1 수준으로, 뛰어난 성능과 함께 경제성까지 갖춰 보안 팀에게 매력적인 선택지가 될 것으로 예상됩니다.
이번 결과는 보안 분야에서 오픈웨이트 모델의 잠재력을 명확히 보여줍니다. 특히 민감한 데이터를 다루는 보안 팀의 경우, 모델을 자체 환경에서 완전히 실행할 수 있는 오픈웨이트 모델은 데이터 주권 및 보안 측면에서 큰 이점을 제공합니다. GLM 5.2의 등장은 고성능 AI 모델 접근성을 높이고, 비용 효율적인 보안 솔루션 개발을 촉진할 것으로 기대됩니다. 이는 AI 기반 보안 도구 시장의 경쟁을 심화시키고, 더 많은 기업과 개발자들이 AI를 활용한 보안 강화에 나설 수 있는 계기가 될 것입니다.
