Cybersecurity researchers aren’t happy about the guardrails on Anthropic’s Fable

앤트로픽(Anthropic)이 공개한 사이버 보안 특화 AI 모델 '페이블(Fable)'이 지나치게 엄격한 안전 장치(guardrails)로 인해 실제 사이버 보안 작업에 활용하기 어렵다는 불만이 제기되고 있습니다. 악성코드 개발 등 오용을 막기 위한 조치이지만, 일반적인 보안 관련 질문에도 민감하게 반응하여 전문가들의 활용도를 떨어뜨린다는 지적입니다.

3일 전·2026.06.10·읽기 1분·Lorenzo Franceschi-Bicchierai

앤트로픽(Anthropic)이 최근 공개한 사이버 보안 특화 AI 모델 '페이블(Fable)'이 과도한 안전 장치(guardrails)로 인해 사이버 보안 전문가들 사이에서 불만을 사고 있습니다. 강력한 사이버 보안 모델 '미토스(Mythos)'의 대중 제한 버전으로 출시된 페이블은 악성코드 개발이나 소프트웨어 침해 등 오용을 막기 위한 목적으로 엄격한 제한을 두고 있습니다. 하지만 이로 인해 실제 보안 업무에 필요한 질문조차 거부당하는 상황이 발생하고 있습니다.

IBM X-포스(X-Force)의 보안 연구원 발렌티나 팔미오티(Valentina Palmiotti)는 페이블이 '사이버 관련성이 조금이라도 있는 요청은 모두 거부한다'고 지적했습니다. 심지어 '블로그 게시물 읽기'와 같은 무해한 작업도 거부당하며, 안전 장치가 발동하면 '사이버 보안 또는 생물학 주제로 메시지가 플래그되었다'는 경고를 표시합니다. 이는 생물학 무기 개발 우려와 유사한 맥락에서 생물학 관련 주제에도 제한을 두기 때문입니다. 사이버 보안 전문가 맷 수이체(Matt Suiche)는 '안전한 코드 작성'을 요청해도 소프트웨어 엔지니어링 모범 사례가 아닌 사이버 보안 관련 작업으로 간주되어 거부당한다고 밝혔습니다. 페이블은 이러한 안전 장치가 발동하면 클로드 오푸스 4.8(Claude Opus 4.8)로 대체되도록 프로그램되어 있으며, 키워드 기반으로 작동하여 '사이버 보안'과 관련된 어휘만 있어도 제한이 걸리는 것으로 보입니다.

이러한 제한은 AI 모델의 오용 위험을 최소화하려는 앤트로픽의 의도를 반영하지만, 실제 현장에서 AI를 활용하려는 사이버 보안 전문가들에게는 큰 장벽으로 작용합니다. 앤트로픽은 지난 4월 미토스를 출시하며 '프로젝트 글래스윙(Project Glasswing)'을 통해 소수의 기업과 기관에만 접근을 허용했고, 최근 수백 개 기관으로 대상을 확대했지만, 페이블의 무작위적인 제한은 여전히 문제로 지적됩니다. 물론, AI 보안 모델 개발의 초기 단계임을 감안할 때 점진적으로 안전 장치가 완화될 것이라는 기대도 있습니다. 앤트로픽은 사이버 보안 전문가들을 대상으로 '사이버 검증 프로그램(Cyber Verification Program)'을 운영하여 승인된 사용자에게는 더 적은 제한을 두는 방식을 취하고 있으며, 오픈AI(OpenAI) 역시 유사한 '사이버를 위한 신뢰 접근(Trusted Access for Cyber)' 프로그램을 운영하고 있습니다. 이는 AI 모델의 안전한 활용과 실용성 사이에서 균형점을 찾아가는 과정으로 보입니다.