오픈AI(OpenAI)의 GPT-5.5 코덱스(Codex) 모델이 복잡한 작업 처리 시 성능 저하를 보인다는 주장이 제기되었습니다. 특히, 모델의 추론 출력 토큰(reasoning-output-tokens)이 516, 1034, 1552와 같은 특정 값에서 비정상적으로 집중되는 현상이 발견되었는데, 이는 모델이 충분한 추론 과정을 거치지 못하고 조기에 응답을 종료할 가능성을 시사합니다.
이 문제는 2026년 2월부터 6월까지의 코덱스 토큰 카운트(token_count) 메타데이터를 분석한 결과 드러났습니다. GPT-5.5 모델은 전체 응답의 19.3%만을 차지하지만, 정확히 516 토큰으로 끝나는 응답의 82.0%를 차지했습니다. 이는 다른 모델들에 비해 33배 이상 높은 수치입니다. 또한, 5월에는 전체 응답 중 516 토큰으로 끝나는 비율이 53.3%에 달했으며, 동시에 평균 추론 토큰 수는 급격히 감소했습니다. 이러한 데이터는 GPT-5.5가 특정 임계점에서 추론을 강제로 종료하거나, 내부 예산 제한에 따라 불완전한 답변을 내놓을 수 있음을 암시합니다.
이러한 현상은 코덱스(Codex)와 같은 코드 생성 및 복잡한 문제 해결에 특화된 모델의 신뢰성에 중요한 영향을 미칠 수 있습니다. 개발자들은 모델이 복잡한 작업을 수행할 때 자연스럽게 다양한 길이의 추론 토큰을 사용해야 한다고 지적하며, 오픈AI 팀에 GPT-5.5의 추론 예산, 라우팅, 잘림(truncation) 또는 스케줄러(scheduler) 동작에 대한 조사를 요청했습니다. 이는 대규모 언어모델(LLM)의 내부 작동 방식과 성능 안정성에 대한 투명성 요구가 커지고 있음을 보여주는 사례입니다.