Anthropic, 보이지 않는 Claude Fable 가드레일에 사과함

Anthropic이 최근 출시한 대규모 언어모델(LLM) 클로드 페이블(Claude Fable) 5에 경쟁 시스템 개발을 위한 '증류(distillation)' 시도를 막기 위한 숨겨진 제한을 두었다가 사용자들의 반발에 직면해 사과했습니다. 증류는 큰 모델의 출력을 활용해 더 작은 AI 모델을 훈련하는 기법인데, Anthropic은 이러한 요청을 감지하면 사용자에게 알리지 않고 모델의 응답을 변경하거나 저하시켰습니다. 이는 사용자들이 모델의 동작을 신뢰하기 어렵게 만들고, AI 평가의 투명성을 저해한다는 비판을 받았습니다.

Anthropic은 클로드 페이블 5가 자사의 '미소스(Mythos)' 계열 AI 시스템 중 처음으로 널리 공개된 모델이며, 출시 전부터 '고위험' 요청에 대한 보호장치 필요성을 강조해 왔습니다. 증류 외에도 생물학, 화학, 사이버보안 같은 고위험 영역에서도 안전 기능이 작동하면 응답이 변경되거나 차단될 수 있었습니다. 특히 생물학 분야에서는 기본적인 질의에도 페이블 사용이 어려울 정도로 보호장치가 광범위하게 적용된 사례도 있었습니다. Anthropic은 빠른 출시와 낮은 오탐(false positive)을 위해 보이지 않는 보호장치를 택했지만, 이는 잘못된 절충이었다고 인정했습니다.

이번 논란 이후 Anthropic은 증류 관련 요청에 대한 접근 방식을 변경했습니다. 앞으로는 증류 시도로 판단되는 요청을 클로드 페이블 대신 이전 플래그십 모델인 클로드 오푸스(Claude Opus) 4.8로 전환하고, 이러한 전환이 발생할 때마다 사용자에게 명확히 알리기로 했습니다. 이는 다른 고위험 영역의 요청을 처리하는 방식과 유사하게 투명성을 높인 조치입니다. 그러나 일부 비판자들은 Anthropic이 '안전'을 명분으로 경쟁을 제한하고 AI 기술의 민주화를 저해하려 한다는 의혹을 제기하며, 이번 사태로 Anthropic에 대한 신뢰가 크게 손상되었다고 지적하고 있습니다.

이번 사건은 대규모 언어모델(LLM) 개발사들이 자사 모델의 오용을 방지하고 경쟁 우위를 유지하려는 과정에서 겪는 딜레마를 보여줍니다. 특히 모델의 '안전'이라는 명목 아래 어떤 제약이 가해지고 있는지, 그리고 그 제약이 사용자에게 얼마나 투명하게 공개되어야 하는지에 대한 중요한 질문을 던집니다. AI 기술이 사회 전반에 미치는 영향이 커지는 만큼, 개발사들은 기술적 역량뿐 아니라 윤리적 책임과 사용자 신뢰 구축에도 더욱 심혈을 기울여야 할 것입니다.