yozm.tech
피드로 돌아가기
news.hada.ioHOTAI 재작성

더 나은 모델, 더 나빠진 도구

최신 대규모 언어모델(LLM)인 클로드 오푸스 4.8(Claude Opus 4.8)과 소네트 5(Sonnet 5)가 특정 도구 스키마를 따르지 못해 호출이 거부되는 현상이 발견되었습니다. 이는 모델이 복잡한 작업을 해결하는 능력은 향상되었지만, 특정 도구 호출 방식에 대한 학습 편향으로 인해 다른 스키마에서는 오작동할 수 있음을 시사합니다. 모델의 성능 향상이 오히려 도구 사용의 유연성을 저해할 수 있다는 점에서 주목됩니다.

5시간 전·2026.07.05·읽기 1·neo https://news.hada.io/user/neo

최근 클로드 오푸스 4.8(Claude Opus 4.8)과 소네트 5(Sonnet 5) 등 앤트로픽(Anthropic)의 최신 대규모 언어모델(LLM)에서 흥미로운 문제가 발견되었습니다. 이 모델들이 '파이(Pi)'라는 AI 에이전트의 파일 편집(edit) 도구를 호출할 때, 스키마에 정의되지 않은 불필요한 필드를 추가하여 호출이 거부되는 현상이 관찰된 것입니다. 이는 이전 버전의 모델에서는 나타나지 않았던 문제로, 모델의 전반적인 성능은 향상되었지만 특정 도구 사용 능력은 오히려 퇴보했다는 점에서 주목받고 있습니다.

문제의 핵심은 LLM의 도구 호출 방식에 있습니다. LLM은 대화 기록, 시스템 프롬프트, 사용 가능한 도구 목록을 바탕으로 특수 마커와 JSON 형태의 텍스트를 생성하여 도구를 호출합니다. 파이의 편집 도구는 'path'와 'edits' 배열을 포함하며, 'edits' 배열 안에는 'oldText'와 'newText' 필드만 허용됩니다. 하지만 최신 클로드 모델들은 'requireUnique', 'oldText2', 'matchCase' 등 스키마에 없는 가짜 키를 덧붙여 호출을 실패시켰습니다. 이러한 현상은 모델이 파일을 읽고 문제를 진단한 뒤 여러 줄 편집을 구성하는 에이전트 이력(agent history)이 있을 때 더 자주 재현되었으며, 앤트로픽의 '스트릭트(strict) 도구 호출' 모드를 사용하면 문제가 해결되는 것으로 확인되었습니다.

이러한 퇴보 현상의 가장 유력한 가설은 학습 산물이라는 점입니다. 최신 앤트로픽 모델이 '클로드 코드(Claude Code)'와 같은 특정 하네스(harness) 환경에서 후학습(post-training)을 받았을 가능성이 크다는 분석입니다. 클로드 코드의 편집 도구는 파이의 중첩된 'edits[]' 구조와 달리 'file_path', 'old_string', 'new_string' 등 평평한 구조를 가집니다. 또한 클로드 코드 클라이언트는 잘못된 도구 사용 재시도, 파라미터 별칭, 타입 강제 변환, 알 수 없는 키 필터링 등 상당한 오류 보정(error correction) 기능을 갖추고 있어, 모델이 약간 잘못된 도구 호출을 하더라도 작업을 완료하고 보상을 받을 수 있습니다. 강화학습(RL) 과정에서 이러한 관대한 환경에 적응하면서, 다른 스키마를 가진 도구에 대해서는 오히려 정확도가 떨어지는 '분포 밖(out-of-distribution)' 도구가 되어버린 것으로 보입니다.

이러한 현상은 LLM 개발 및 활용에 중요한 시사점을 던집니다. 모델의 성능이 향상될수록 특정 학습 환경에 대한 편향이 강해질 수 있으며, 이는 다양한 도구 스키마에 대한 유연성을 저해할 수 있습니다. 즉, 모델이 복잡한 추론 능력은 좋아지더라도, 특정 도구 호출 규약을 충실히 따르는 능력은 약화될 수 있다는 것입니다. 따라서 LLM 기반 애플리케이션을 개발할 때는 모델이 특정 하네스에 맞춰 학습되었을 가능성을 염두에 두고, 도구 스키마 설계와 모델 출력 검증에 더욱 신중을 기해야 합니다. 앤트로픽의 '스트릭트 모드'처럼 서버 측에서 JSON 스키마 유효성 검사를 강화하거나, 문법 인식 디코딩(grammar-aware decoding)과 같은 제약 디코딩(constrained decoding) 방식을 활용하여 모델이 처음부터 스키마를 위반하는 토큰을 생성하지 못하도록 하는 강한 보장(stronger guarantees)이 필요할 것입니다.

1인 창업자를 위한 기회 분석
AI 분석 · 참고용이며 검증이 필요합니다
4/10
보통
4점인가

LLM 도구 호출의 안정성 문제는 분명한 페인 포인트이나, 이를 해결하기 위한 기술적 난이도가 높고, 범용적인 솔루션보다는 특정 LLM/도구 조합에 대한 깊은 이해가 필요하다.

문제 / 미충족 수요

대규모 언어모델(LLM)이 특정 도구 스키마에 대한 학습 편향으로 인해 다른 스키마를 가진 도구를 정확하게 호출하지 못하는 문제가 발생한다.

한국 시장
국내 있음한국에서도 LLM 기반 에이전트 개발이 활발해지면서, 도구 호출의 안정성 및 정확성 확보에 대한 수요가 증가할 것이다.
수익 모델

B2B SaaS 구독 · 돈 내는 주체: LLM 기반 에이전트 및 자동화 시스템을 개발하는 기업 개발자, 스타트업

1인 실현 가능성
3/5

LLM API 연동 및 스키마 검증 로직 구현은 가능하나, 다양한 LLM과 도구 스키마에 대한 이해와 지속적인 업데이트가 필요하다.

진입 지점 (Wedge)

특정 산업 도메인에 특화된 LLM 도구 호출 스키마 검증 및 자동 보정 API

이번 주 첫 실험

LLM 도구 호출 실패 사례를 수집하고, 스키마 불일치 패턴을 분석하여 보정 규칙 초안을 작성한다.

Original source
이 글은 news.hada.io의 기사를 yozm.tech가 한국어로 재작성한 버전입니다.
원문 보기