GPT-5.5 Codex의 추론 토큰 클러스터링이 성능 저하로 이어질 수 있음

OpenAI의 GPT-5.5 코덱스(Codex) 모델에서 추론(reasoning) 토큰이 516, 1034, 1552와 같은 특정 고정 값에 비정상적으로 집중되는 현상이 발견되었습니다. 이 '토큰 클러스터링'이 복잡한 코딩 작업의 품질 저하로 이어질 수 있다는 보고가 나왔으며, 실제 오답 사례도 재현되어 사용자들의 우려가 커지고 있습니다. OpenAI는 내부 조사를 요청받았습니다.

5시간 전·2026.07.05·읽기 1분·neo https://news.hada.io/user/neo

OpenAI의 코드 생성 모델인 GPT-5.5 코덱스(Codex)에서 이상한 현상이 포착되었습니다. 모델이 복잡한 문제를 해결하기 위해 사용하는 추론(reasoning) 토큰의 수가 516, 1034, 1552와 같은 특정 고정 값에 비정상적으로 몰리는 '클러스터링' 패턴이 나타난 것입니다. 이 현상이 코덱스 모델의 성능 저하, 특히 복잡한 코딩 작업에서 오답을 유발할 수 있다는 우려가 제기되었습니다.

이번 이슈는 OpenAI의 GitHub 저장소에 #30364로 보고되었으며, 2026년 2월부터 6월까지의 코덱스 토큰 사용량 메타데이터 분석을 기반으로 합니다. 특히 GPT-5.5 모델은 전체 응답의 19.3%에 불과했지만, 516개 토큰 고정 현상의 82.0%를 차지했습니다. 월별 데이터에서는 2월 0.11%에 불과했던 516 토큰 클러스터링 비율이 5월에는 53.30%로 급증했으며, 같은 기간 평균 추론 토큰 수는 오히려 감소했습니다. 이는 단순히 추론량이 늘어난 것이 아니라, 모델 내부의 특정 임계값이나 절단(truncation) 메커니즘이 작동했을 가능성을 시사합니다. 실제 테스트에서 GPT-5.5는 516 토큰으로 추론을 마친 후 오답을 내놓는 경우가 많았지만, GPT-5.4는 더 많은 토큰을 사용해 정답을 도출하는 모습을 보였습니다.

이러한 토큰 클러스터링은 모델이 충분히 '생각'할 기회를 갖지 못하고 특정 지점에서 추론을 강제로 종료하게 만들어, 결과적으로 코드 품질 저하로 이어질 수 있습니다. 이는 특히 높은 정확도를 요구하는 개발 작업에서 심각한 문제로 작용할 수 있습니다. 현재 사용자들은 이 문제를 우회하기 위해 516 토큰 패턴을 감지하여 추론을 이어가도록 하는 로컬 프록시(local proxy)를 제안하는 등 임시방편을 모색하고 있습니다. OpenAI는 내부적으로 GPT-5.5의 추론 예산, 라우팅, 절단 메커니즘 등이 이 현상을 유발하는지 조사해 달라는 요청을 받은 상태입니다. 이 문제는 대규모 언어모델(LLM)의 '사고 과정'과 그 제어 방식에 대한 중요한 질문을 던지며, 모델의 신뢰성과 예측 가능성에 대한 논의를 촉발할 것으로 보입니다.