앤트로픽(Anthropic)의 최상위 대규모 언어모델(LLM)인 클로드 페이블 5(Claude Fable 5)가 미국 정부의 수출통제 해제에 따라 약 3주 만에 전 세계에 재배포되었습니다. 지난 6월 9일 출시된 지 불과 3일 만에 수출통제로 인해 접근이 전면 중단되었던 이 모델은, 6월 30일 미 상무부의 통제 해제 결정에 힘입어 7월 1일(현지 시간)부터 다시 서비스되기 시작했습니다.
이번 중단의 계기는 아마존(Amazon) 연구진이 발견한 '탈옥(jailbreak)' 기법 때문이었습니다. 이는 모델의 안전장치를 우회하여 유해하거나 의도치 않은 답변을 생성하게 하는 취약점으로, 앤트로픽은 이를 99% 이상 차단하는 새로운 안전 분류기(classifier)를 탑재했습니다. 미 상무부 산하 AI 표준 및 혁신 센터(CAISI) 연구진은 이 새로운 안전장치를 “매우 강력하다(extraordinarily strong)”고 평가했습니다. 또한, 앤트로픽은 아마존, 마이크로소프트(Microsoft), 구글(Google)과 함께 탈옥 심각도를 평가하는 4축 공동 스코어링 프레임워크를 제안하고, 사이버 탈옥 신고를 위한 해커원(HackerOne) 프로그램을 신설하는 등 AI 안전에 대한 업계의 협력을 강화하고 있습니다. 클로드 페이블 5는 Claude.ai, Claude Platform, Claude Code, Claude Cowork에서 즉시 제공되며, 아마존 웹 서비스(AWS), 구글 클라우드(Google Cloud), 마이크로소프트 파운드리(Microsoft Foundry)에서는 순차적으로 재활성화될 예정입니다.
이번 재배포는 AI 기술 발전과 안전 규제 사이의 균형점을 찾는 중요한 사례로 평가됩니다. 최신 AI 모델의 잠재적 위험에 대한 정부의 개입과 업계의 신속한 대응이 맞물려, AI 안전에 대한 기준을 높이는 계기가 될 수 있습니다. 특히, 앤트로픽 자체 테스트에서 하위 모델들도 동일한 취약점을 보였다는 점은 AI 안전 문제가 특정 모델에 국한되지 않는다는 것을 시사하며, 앞으로 AI 개발 전반에 걸쳐 더욱 엄격한 안전 프로토콜과 검증 과정이 요구될 것임을 보여줍니다. 이는 AI 기술의 책임감 있는 개발과 배포를 위한 업계 표준을 정립하는 데 기여할 것입니다.