최근 인공지능(AI) 업계에서 모델의 크기를 무작정 키우는 '무한 확장 전략'에 대한 회의적인 시각이 확산되고 있습니다. 이러한 맥락에서, MIT 라이선스를 기반으로 하는 오픈소스 대규모 언어모델(LLM)인 GLM-5.2가 폐쇄형 모델인 GPT-5.5보다 환각(hallucination)률이 3배가량 낮다는 분석 결과가 나와 주목받고 있습니다. 이는 단순히 파라미터(parameter) 수를 늘리는 것만으로는 실제 지능이나 정확성이 보장되지 않는다는 점을 시사합니다.
Artificial Analysis Intelligence Index에 따르면, GLM-5.2는 753B 파라미터와 약 40B 활성 파라미터(active parameter)를 가졌음에도 GPT-5.5와 4점 차이까지 근접한 성능을 보였습니다. 특히 환각률 비교에서 GLM-5.2는 28%를 기록한 반면, GPT-5.5는 86%, DeepSeek V4 Pro는 94%에 달했습니다. 이는 모델이 모르는 질문에도 확신에 찬 잘못된 답을 내놓는 경향이 크다는 것을 의미합니다. 또한, 복잡한 파이썬(Python) 테스트에서 DeepSeek V4 Pro는 3분 52초 동안 7.7k 추론 토큰(reasoning token)을 사용하고도 오답을 냈지만, GLM-5.2는 단 12초와 약 800 추론 토큰만으로 기술적 불가능성을 정확히 짚어내며 계산 효율성에서도 우위를 보였습니다.
이러한 결과는 LLM 선택 시 단순히 파라미터 수나 이론적 성능 지표만을 볼 것이 아니라, 원시 능력(raw capability), 불확실성 보정(uncertainty calibration) 능력, 즉 환각률, 그리고 계산 효율성(computational efficiency)을 종합적으로 평가해야 한다는 중요한 메시지를 던집니다. 대규모 모델들이 여전히 높은 점수를 기록하지만, 오픈소스 모델들도 그 격차를 빠르게 줄이고 있으며, 이는 실제 지능의 발전이 일정 수준에서 정체될 수 있다는 '고원(plateau) 가능성'을 뒷받침합니다. 결국, 무작정 모델을 확장하기보다는 데이터 품질 개선이나 '모른다'고 답하는 능력을 학습시키는 등, 모델의 내재적 한계를 극복하기 위한 새로운 접근 방식이 필요하다는 논의가 활발해질 것으로 예상됩니다.