더 나은 모델, 더 나빠진 도구

최근 클로드 오푸스 4.8(Claude Opus 4.8)과 소네트 5(Sonnet 5) 등 앤트로픽(Anthropic)의 최신 대규모 언어모델(LLM)에서 흥미로운 문제가 발견되었습니다. 이 모델들이 '파이(Pi)'라는 AI 에이전트의 파일 편집(edit) 도구를 호출할 때, 스키마에 정의되지 않은 불필요한 필드를 추가하여 호출이 거부되는 현상이 관찰된 것입니다. 이는 이전 버전의 모델에서는 나타나지 않았던 문제로, 모델의 전반적인 성능은 향상되었지만 특정 도구 사용 능력은 오히려 퇴보했다는 점에서 주목받고 있습니다.

문제의 핵심은 LLM의 도구 호출 방식에 있습니다. LLM은 대화 기록, 시스템 프롬프트, 사용 가능한 도구 목록을 바탕으로 특수 마커와 JSON 형태의 텍스트를 생성하여 도구를 호출합니다. 파이의 편집 도구는 'path'와 'edits' 배열을 포함하며, 'edits' 배열 안에는 'oldText'와 'newText' 필드만 허용됩니다. 하지만 최신 클로드 모델들은 'requireUnique', 'oldText2', 'matchCase' 등 스키마에 없는 가짜 키를 덧붙여 호출을 실패시켰습니다. 이러한 현상은 모델이 파일을 읽고 문제를 진단한 뒤 여러 줄 편집을 구성하는 에이전트 이력(agent history)이 있을 때 더 자주 재현되었으며, 앤트로픽의 '스트릭트(strict) 도구 호출' 모드를 사용하면 문제가 해결되는 것으로 확인되었습니다.

이러한 퇴보 현상의 가장 유력한 가설은 학습 산물이라는 점입니다. 최신 앤트로픽 모델이 '클로드 코드(Claude Code)'와 같은 특정 하네스(harness) 환경에서 후학습(post-training)을 받았을 가능성이 크다는 분석입니다. 클로드 코드의 편집 도구는 파이의 중첩된 'edits[]' 구조와 달리 'file_path', 'old_string', 'new_string' 등 평평한 구조를 가집니다. 또한 클로드 코드 클라이언트는 잘못된 도구 사용 재시도, 파라미터 별칭, 타입 강제 변환, 알 수 없는 키 필터링 등 상당한 오류 보정(error correction) 기능을 갖추고 있어, 모델이 약간 잘못된 도구 호출을 하더라도 작업을 완료하고 보상을 받을 수 있습니다. 강화학습(RL) 과정에서 이러한 관대한 환경에 적응하면서, 다른 스키마를 가진 도구에 대해서는 오히려 정확도가 떨어지는 '분포 밖(out-of-distribution)' 도구가 되어버린 것으로 보입니다.

이러한 현상은 LLM 개발 및 활용에 중요한 시사점을 던집니다. 모델의 성능이 향상될수록 특정 학습 환경에 대한 편향이 강해질 수 있으며, 이는 다양한 도구 스키마에 대한 유연성을 저해할 수 있습니다. 즉, 모델이 복잡한 추론 능력은 좋아지더라도, 특정 도구 호출 규약을 충실히 따르는 능력은 약화될 수 있다는 것입니다. 따라서 LLM 기반 애플리케이션을 개발할 때는 모델이 특정 하네스에 맞춰 학습되었을 가능성을 염두에 두고, 도구 스키마 설계와 모델 출력 검증에 더욱 신중을 기해야 합니다. 앤트로픽의 '스트릭트 모드'처럼 서버 측에서 JSON 스키마 유효성 검사를 강화하거나, 문법 인식 디코딩(grammar-aware decoding)과 같은 제약 디코딩(constrained decoding) 방식을 활용하여 모델이 처음부터 스키마를 위반하는 토큰을 생성하지 못하도록 하는 강한 보장(stronger guarantees)이 필요할 것입니다.