최신 대규모 언어모델(LLM)이 발전하면서도 특정 기능에서는 오히려 퇴보하는 현상이 관찰되어 주목받고 있습니다. 앤트로픽(Anthropic)의 최신 클로드(Claude) 모델인 Opus 4.8과 Sonnet 5가 이전 모델보다 도구 호출(tool call) 시 스키마(schema)를 제대로 따르지 못하는 문제가 발생했습니다. 모델이 도구 호출에 필요한 인자(argument)에 정의되지 않은 필드를 임의로 추가하여, 시스템이 이를 유효하지 않은 호출로 판단하고 거부하는 사례가 빈번하게 보고되고 있습니다.
이러한 문제는 특히 파일 편집 도구(file edit tool)와 같은 복잡한 작업에서 두드러집니다. 예를 들어, 파일 편집을 위한 `edits` 배열 내 객체에 `requireUnique`나 `oldText2`와 같은 스키마에 없는 필드를 멋대로 추가하는 식입니다. 흥미로운 점은 모델이 생성한 `oldText`와 `newText` 자체는 정확하지만, 불필요한 필드 때문에 전체 호출이 실패한다는 것입니다. 이러한 오류는 단일 턴(single-turn) 프롬프트에서는 잘 나타나지 않고, 파일을 읽고 문제를 진단한 후 여러 줄을 편집하는 등 복잡한 에이전트 작업 기록(agentic history)이 쌓일 때 약 20%의 확률로 발생했습니다. 이는 도구 호출이 단순히 텍스트 기반의 약속된 형식(in-band signalling)을 따르며, 모델이 학습된 컨벤션(convention)을 따르는 과정에서 발생하는 문제임을 보여줍니다.
이러한 현상은 최신 모델의 훈련 방식과 관련이 있을 수 있다는 가설이 제기됩니다. 이전 모델들은 일반적인 도구 사용에 대해 훈련되었지만, 최신 모델들은 클로드 코드(Claude Code)와 같은 특정 하네스(harness) 환경에 최적화된 후처리 훈련(post-training)을 거쳤을 가능성이 있습니다. 이 과정에서 모델이 특정 스키마에 대한 엄격한 준수보다는 전반적인 코드 생성 능력에 더 집중하게 되었을 수 있습니다. 또한, 문법 인식 디코딩(grammar-aware decoding)과 같은 샘플러(sampler) 제약이 적용되지 않으면, 모델은 단순히 학습된 컨벤션을 따르기 때문에 유효하지 않은 토큰(token)을 생성할 수 있습니다. 이는 AI 모델의 성능 향상이 반드시 모든 하위 작업의 개선으로 이어지지 않으며, 특정 작업에서는 오히려 섬세함이 떨어질 수 있음을 시사합니다. 개발자들은 모델의 도구 호출 신뢰성을 높이기 위해 엄격한 도구 호출 유효성 검사(strict tool invocation validation)를 적용하는 것이 중요해졌습니다.
