앤트로픽(Anthropic)이 최근 출시한 최신 대규모 언어모델(LLM) 클로드 페이블 5(Claude Fable 5)가 생물학 관련 질문에 답변을 거부해 논란이 일고 있습니다. 앤트로픽은 페이블 5를 자사 모델 중 가장 강력하며 생물학 분야에서 뛰어난 성능을 보인다고 홍보했지만, 실제로는 고등학생도 답할 수 있는 기본적인 생물학 질문에도 응답하지 않는 것으로 나타났습니다. 대신, 해당 질문은 이전 플래그십 모델인 클로드 오푸스 4.8(Claude Opus 4.8)로 넘겨지고 있습니다.
페이블 5가 답변을 거부하는 이유는 모델이 답을 모르기 때문이 아니라, 앤트로픽이 의도적으로 막아놓았기 때문입니다. 앤트로픽은 생물학 무기 개발에 악용될 가능성을 차단하기 위해 페이블 5에 '과도하게 보수적인(overly conservative)' 안전장치를 적용했다고 밝혔습니다. 이로 인해 세포막, 미토콘드리아, 프리온(prion) 등 기초 생물학 개념부터 건초열(hay fever)의 원인, mRNA 백신 작동 방식, 항생제 내성, 에볼라(Ebola) 바이러스 등 일반적인 의학 관련 질문까지 대부분 차단되고 있습니다. 앤트로픽은 이러한 제한이 모델의 잠재적 위험을 줄이면서도 고객이 모델의 다른 기능을 더 빨리 활용할 수 있도록 하기 위한 '트레이드오프(tradeoff)'라고 설명했습니다.
이번 사례는 강력한 AI 모델의 안전성과 활용성 사이의 균형에 대한 중요한 질문을 던집니다. 앤트로픽은 페이블 5가 사이버 보안 분야에서도 매우 강력하여 공개하기 위험하다고 판단했던 '미토스 클래스(Mythos-class)' 모델군에 속한다고 밝힌 바 있습니다. 생물학적 위험 외에도 화학, 사이버 보안, 그리고 더 작은 AI를 훈련시키는 '증류(distillation)' 기술 등 네 가지 핵심 영역에서 응답을 제한하고 있습니다. 앤트로픽은 향후 탐지 기능을 개선하고 오탐(false positive)을 줄여 생물학 및 생명 과학 커뮤니티가 이 모델의 역량을 생의학 연구 및 신약 개발에 활용할 수 있도록 할 계획이라고 밝혔습니다. 하지만 이러한 제한적인 출시가 향후 모델의 새로운 표준이 될지는 미지수입니다.