news.hada.ioHOTAI 재작성

GPT-5.5, MIT 라이선스 GLM-5.2보다 환각률 3배

최근 AI 연구소들 사이에서 무한 확장 전략에 대한 회의론이 커지는 가운데, MIT 라이선스의 오픈소스 모델 GLM-5.2가 GPT-5.5보다 환각률이 3배 낮다는 분석이 나왔습니다. 모델 크기가 곧 정확성을 보장하지 않으며, 원시 능력, 환각률, 계산 효율성을 종합적으로 고려해야 한다는 주장이 힘을 얻고 있습니다.

6시간 전·2026.06.20·읽기 1분·neo https://news.hada.io/user/neo

최근 인공지능(AI) 업계에서 모델의 크기를 무작정 키우는 '무한 확장 전략'에 대한 회의적인 시각이 확산되고 있습니다. 이러한 맥락에서, MIT 라이선스를 기반으로 하는 오픈소스 대규모 언어모델(LLM)인 GLM-5.2가 폐쇄형 모델인 GPT-5.5보다 환각(hallucination)률이 3배가량 낮다는 분석 결과가 나와 주목받고 있습니다. 이는 단순히 파라미터(parameter) 수를 늘리는 것만으로는 실제 지능이나 정확성이 보장되지 않는다는 점을 시사합니다.

Artificial Analysis Intelligence Index에 따르면, GLM-5.2는 753B 파라미터와 약 40B 활성 파라미터(active parameter)를 가졌음에도 GPT-5.5와 4점 차이까지 근접한 성능을 보였습니다. 특히 환각률 비교에서 GLM-5.2는 28%를 기록한 반면, GPT-5.5는 86%, DeepSeek V4 Pro는 94%에 달했습니다. 이는 모델이 모르는 질문에도 확신에 찬 잘못된 답을 내놓는 경향이 크다는 것을 의미합니다. 또한, 복잡한 파이썬(Python) 테스트에서 DeepSeek V4 Pro는 3분 52초 동안 7.7k 추론 토큰(reasoning token)을 사용하고도 오답을 냈지만, GLM-5.2는 단 12초와 약 800 추론 토큰만으로 기술적 불가능성을 정확히 짚어내며 계산 효율성에서도 우위를 보였습니다.

이러한 결과는 LLM 선택 시 단순히 파라미터 수나 이론적 성능 지표만을 볼 것이 아니라, 원시 능력(raw capability), 불확실성 보정(uncertainty calibration) 능력, 즉 환각률, 그리고 계산 효율성(computational efficiency)을 종합적으로 평가해야 한다는 중요한 메시지를 던집니다. 대규모 모델들이 여전히 높은 점수를 기록하지만, 오픈소스 모델들도 그 격차를 빠르게 줄이고 있으며, 이는 실제 지능의 발전이 일정 수준에서 정체될 수 있다는 '고원(plateau) 가능성'을 뒷받침합니다. 결국, 무작정 모델을 확장하기보다는 데이터 품질 개선이나 '모른다'고 답하는 능력을 학습시키는 등, 모델의 내재적 한계를 극복하기 위한 새로운 접근 방식이 필요하다는 논의가 활발해질 것으로 예상됩니다.

1인 창업자를 위한 기회 분석

AI 분석 · 참고용이며 검증이 필요합니다

4/10

보통

왜 4점인가

LLM의 환각 문제는 명확하지만, 이를 해결하는 기술적 난이도가 높고, '모른다'고 답하는 기능 구현이 생각보다 쉽지 않다는 점이 언급되어 1인 창업자가 진입하기에는 여전히 높은 장벽이 있습니다. 다만, 특정 니치 시장에 특화된 접근은 가능성이 있습니다.

문제 / 미충족 수요

대규모 언어모델(LLM)은 여전히 높은 환각률과 비효율적인 연산 문제를 가지고 있으며, '모른다'고 답하는 능력이 부족합니다.

한국 시장

국내 있음한국에서도 LLM 활용이 확산되면서 환각 문제에 대한 인식이 높아지고 있으나, 이를 전문적으로 해결하는 서비스는 아직 초기 단계입니다.

수익 모델

B2B SaaS 구독, API 종량제 · 돈 내는 주체: 환각으로 인한 오정보로 인해 직접적인 손실을 입을 수 있는 기업 고객 (예: 법률 사무소, 금융 기관, 의료 기관)

1인 실현 가능성

3/5

소형 LLM 기반 솔루션은 1인 개발이 가능하나, 고품질 데이터 확보와 도메인 전문성, 그리고 '모른다'고 답하는 기능 구현의 난이도가 높습니다.

진입 지점 (Wedge)

특정 산업 도메인에 특화된, 환각률이 극히 낮은 소형 LLM 기반 질의응답 시스템 개발

이번 주 첫 실험

특정 산업(예: 법률, 의료)의 전문가들을 대상으로 '모른다'고 답하는 LLM의 필요성에 대한 심층 인터뷰를 진행하고, 환각으로 인한 실제 피해 사례를 수집하여 문제의 심각성을 검증합니다.

Original source

이 글은 news.hada.io의 기사를 yozm.tech가 한국어로 재작성한 버전입니다.

원문 보기