Anthropic apologizes for invisible Claude Fable guardrails

앤트로픽(Anthropic)이 최신 AI 모델 클로드 패이블 5(Claude Fable 5)에 경쟁 모델 개발을 막기 위한 숨겨진 안전장치(guardrails)를 적용한 것에 대해 사과했습니다. 이 안전장치는 모델 증류(distillation) 시 응답을 저해하고 사용자에게 알리지 않아 비판을 받았습니다. 앤트로픽은 앞으로 이러한 제한 사항을 투명하게 공개하고, 해당 쿼리는 이전 모델인 클로드 오푸스 4.8(Claude Opus 4.8)로 대체하겠다고 밝혔습니다.

2일 전·2026.06.11·읽기 1분·Robert Hart

앤트로픽이 자사의 새로운 AI 모델인 클로드 패이블 5에 사용자 몰래 적용했던 '숨겨진 안전장치'에 대해 공식 사과했습니다. 이 안전장치는 연구자나 경쟁사들이 패이블을 이용해 자체 AI 시스템을 개발하는 것을 방해할 목적으로, 모델 증류(distillation) 시 응답의 품질을 저하시키고도 사용자에게 이를 알리지 않아 AI 커뮤니티의 거센 비판을 받았습니다. 앤트로픽은 이제 이러한 정책을 철회하고, 제한 사항이 적용될 때마다 사용자에게 명확히 알리겠다고 약속했습니다.

클로드 패이블 5는 앤트로픽의 '미소스(Mythos)' 계열 AI 시스템 중 처음으로 대중에 공개된 모델입니다. 앤트로픽은 이 모델이 특정 '고위험' 쿼리에 응답하지 않도록 안전장치를 적용했다고 밝힌 바 있습니다. 특히, 대규모 AI 모델의 출력을 이용해 더 작은 AI 모델을 훈련하는 기술인 모델 증류에 대해서는, 패이블의 시스템 카드(system card)에 응답을 직접 변경하거나 저하시킬 것이라고 명시했습니다. 하지만 문제는 이러한 조치가 사용자에게 전혀 통지되지 않았다는 점이었습니다. 이에 앤트로픽은 X(구 트위터)를 통해 증류 시도 쿼리는 이전 주력 모델인 클로드 오푸스 4.8로 대체하고, 이 사실을 사용자에게 명확히 알리겠다고 발표했습니다. 이는 생물학, 화학, 사이버 보안 등 다른 고위험 영역에서 안전장치가 작동할 때 쿼리를 오푸스 4.8로 라우팅하는 방식과 유사합니다.

이번 논란은 AI 개발의 투명성과 공정성이라는 중요한 질문을 던집니다. 앤트로픽은 숨겨진 안전장치가 빠르게 모델을 출시하면서 오탐(false positive)을 줄이는 데 도움이 된다고 해명했지만, 이는 잘못된 선택이었다고 인정했습니다. 특히, 클로드 패이블이 기본 생물학 쿼리에도 거의 사용할 수 없을 정도로 광범위하게 보정된 안전장치로 인해 실질적인 활용성이 떨어진다는 비판도 제기되었습니다. AI 모델의 개발과 활용이 가속화되는 시점에서, 모델 제공자들은 기술적 보호와 사용자 신뢰 사이의 균형을 찾는 데 더욱 신중해야 할 것입니다. 이번 앤트로픽의 사과와 정책 변경은 AI 업계 전반에 투명성 강화의 중요성을 다시 한번 상기시키는 계기가 될 것으로 보입니다.