앤트로픽(Anthropic)이 강력한 사이버보안 모델 '미토스(Mythos)'의 공개 제한 버전인 'Fable'을 출시했지만, 예상치 못한 논란에 휩싸였습니다. Fable은 사이버보안 및 생물학 관련 요청에 대해 광범위하게 가드레일(안전장치)을 작동시켜, 많은 연구자와 전문가들이 불만을 제기하고 있습니다. 가드레일이 작동하면 채팅이 중단되고 “사이버보안 또는 생물학 주제(cybersecurity or biology topics)” 때문에 안전 조치가 메시지를 표시했다는 안내 문구가 나타납니다.
앤트로픽은 Fable의 가드레일이 악성코드 개발이나 소프트웨어 침해, 생물무기 개발 등 모델의 악용 위험을 줄이기 위해 적용되었다고 설명합니다. 그러나 일부 전문가는 안전한 코드 작성이나 코드 리뷰와 같이 소프트웨어 엔지니어링 모범 사례에 가까운 요청까지 사이버보안으로 분류되어, 성능이 낮은 클로드 오푸스 4.8(Claude Opus 4.8)로 자동 전환되는 문제를 지적합니다. 이는 키워드 기반의 단순한 제한으로 보이며, “사이버보안” 관련 어휘가 포함된 모든 것이 가드레일을 작동시키는 것으로 추정됩니다. 실제로 블로그 글 읽기나 질량분석기 통신 소프트웨어 리팩터링, 심지어 인구 연구나 유기화학 학습, 궤도역학 질문까지 차단되는 사례가 보고되었습니다.
이러한 과도한 제한은 AI 모델의 유용성을 크게 떨어뜨리고, 사용자들에게 불필요한 불편함을 초래하고 있습니다. 특히 API를 통해 모델을 사용하는 개발자들은 예측 불가능한 차단과 성능 저하로 인해 애플리케이션 개발에 어려움을 겪고 있습니다. 앤트로픽은 승인된 사이버보안 전문가를 위한 '사이버 검증 프로그램(Cyber Verification Program)'을 운영하며 제한을 완화하고 있지만, 일반 사용자 및 연구자에게는 여전히 높은 장벽으로 작용합니다. 이러한 논란은 AI 안전과 유용성 사이의 균형을 찾는 것이 얼마나 어려운 과제인지를 다시 한번 보여줍니다. 커뮤니티의 비판이 거세지자 앤트로픽은 WIRED를 통해 Fable 5의 안전장치를 조정하고 있으며, 잘못된 절충에 대해 사과한다는 입장을 밝혔습니다. 이는 광범위한 비판 여론이 효과를 낸 것으로 보이지만, 일부 사용자들은 이미 앤트로픽에 대한 신뢰를 잃었다는 반응을 보이고 있습니다.