yozm.tech
피드로 돌아가기
Hacker News (Top)AI 재작성

최신 AI 모델, 오히려 도구 사용 능력 퇴보? 스키마 오류 논란

최신 앤트로픽(Anthropic) 클로드(Claude) 모델인 Opus 4.8과 Sonnet 5가 이전 모델보다 도구(tool) 사용 시 스키마(schema)를 준수하지 못하는 문제가 발견되었습니다. 모델이 유효하지 않은 필드를 임의로 생성하여 도구 호출이 실패하는 현상으로, AI 모델의 성능 향상이 항상 도구 활용 능력 개선으로 이어지지 않음을 시사합니다. 이는 특히 복잡한 에이전트(agent) 작업에서 모델의 신뢰성에 영향을 미칠 수 있습니다.

17시간 전·2026.07.04·읽기 2·leemoore

최신 대규모 언어모델(LLM)이 발전하면서도 특정 기능에서는 오히려 퇴보하는 현상이 관찰되어 주목받고 있습니다. 앤트로픽(Anthropic)의 최신 클로드(Claude) 모델인 Opus 4.8과 Sonnet 5가 이전 모델보다 도구 호출(tool call) 시 스키마(schema)를 제대로 따르지 못하는 문제가 발생했습니다. 모델이 도구 호출에 필요한 인자(argument)에 정의되지 않은 필드를 임의로 추가하여, 시스템이 이를 유효하지 않은 호출로 판단하고 거부하는 사례가 빈번하게 보고되고 있습니다.

이러한 문제는 특히 파일 편집 도구(file edit tool)와 같은 복잡한 작업에서 두드러집니다. 예를 들어, 파일 편집을 위한 `edits` 배열 내 객체에 `requireUnique`나 `oldText2`와 같은 스키마에 없는 필드를 멋대로 추가하는 식입니다. 흥미로운 점은 모델이 생성한 `oldText`와 `newText` 자체는 정확하지만, 불필요한 필드 때문에 전체 호출이 실패한다는 것입니다. 이러한 오류는 단일 턴(single-turn) 프롬프트에서는 잘 나타나지 않고, 파일을 읽고 문제를 진단한 후 여러 줄을 편집하는 등 복잡한 에이전트 작업 기록(agentic history)이 쌓일 때 약 20%의 확률로 발생했습니다. 이는 도구 호출이 단순히 텍스트 기반의 약속된 형식(in-band signalling)을 따르며, 모델이 학습된 컨벤션(convention)을 따르는 과정에서 발생하는 문제임을 보여줍니다.

이러한 현상은 최신 모델의 훈련 방식과 관련이 있을 수 있다는 가설이 제기됩니다. 이전 모델들은 일반적인 도구 사용에 대해 훈련되었지만, 최신 모델들은 클로드 코드(Claude Code)와 같은 특정 하네스(harness) 환경에 최적화된 후처리 훈련(post-training)을 거쳤을 가능성이 있습니다. 이 과정에서 모델이 특정 스키마에 대한 엄격한 준수보다는 전반적인 코드 생성 능력에 더 집중하게 되었을 수 있습니다. 또한, 문법 인식 디코딩(grammar-aware decoding)과 같은 샘플러(sampler) 제약이 적용되지 않으면, 모델은 단순히 학습된 컨벤션을 따르기 때문에 유효하지 않은 토큰(token)을 생성할 수 있습니다. 이는 AI 모델의 성능 향상이 반드시 모든 하위 작업의 개선으로 이어지지 않으며, 특정 작업에서는 오히려 섬세함이 떨어질 수 있음을 시사합니다. 개발자들은 모델의 도구 호출 신뢰성을 높이기 위해 엄격한 도구 호출 유효성 검사(strict tool invocation validation)를 적용하는 것이 중요해졌습니다.

1인 창업자를 위한 기회 분석
AI 분석 · 참고용이며 검증이 필요합니다
6/10
보통
6점인가

LLM의 도구 호출 신뢰성 문제는 에이전트 시스템의 핵심적인 약점이며, 이를 해결하는 솔루션은 명확한 가치를 제공합니다. 1인 창업자가 특정 LLM에 특화된 경량 솔루션으로 시작하기에 적합합니다.

문제 / 미충족 수요

대규모 언어모델(LLM)이 도구(tool) 호출 시 스키마(schema)를 준수하지 못해 에이전트(agent) 시스템의 신뢰성이 저하되는 문제가 있습니다.

한국 시장
국내 미진출 — 기회한국에서도 LLM 기반 에이전트 개발이 활발해지면서, 이러한 도구 호출 신뢰성 문제는 점차 중요해질 것입니다.
수익 모델

B2B SaaS 구독, API 종량제 · 돈 내는 주체: LLM 기반 에이전트 시스템을 개발하거나 운영하는 개발자, 스타트업, 기업

1인 실현 가능성
4/5

LLM API 연동 및 스키마 유효성 검사 로직 구현은 1인 개발로 충분히 가능하며, 초기에는 특정 LLM에 집중하여 범위를 좁힐 수 있습니다.

진입 지점 (Wedge)

특정 LLM의 도구 호출 스키마 오류를 자동으로 감지하고 수정하는 경량 프록시(proxy) 서비스 또는 라이브러리 개발

이번 주 첫 실험

주요 LLM(OpenAI, Anthropic, Google)의 도구 호출 스키마 오류 사례를 수집하고, 각 모델별 오류 패턴을 분석하여 최소 기능 제품(MVP)에 포함할 핵심 기능을 정의합니다.

Original source
이 글은 Hacker News (Top)의 기사를 yozm.tech가 한국어로 재작성한 버전입니다.
원문 보기