연구자들 “Fable 5 논란은 탈옥이 아니라 ‘fix this code’에서 시작됐다”

미국 정부가 앤트로픽(Anthropic)의 최신 대규모 언어모델(LLM)인 Fable 5와 Mythos 5에 대한 접근을 제한한 배경에 대한 논란이 커지고 있습니다. 당초 알려진 것과 달리, 이 조치가 복잡한 탈옥(jailbreak) 기법이 아닌, 단순히 취약한 코드에 “fix this code”라는 세 단어 프롬프트(prompt)를 입력한 요청에서 시작되었다는 주장이 제기되었습니다. 루타 시큐리티(Luta Security) CEO인 케이티 무수리스(Katie Moussouris)는 앤트로픽이 비공개로 공유한 Fable 5 가드레일(guardrail) 우회 관련 제3자 연구 논문을 검토한 유일한 외부 전문가로서 이 같은 사실을 밝혔습니다.

무수리스에 따르면, 외부 연구자들은 알려진 취약점(CVE)이 포함된 오픈소스 코드와 의도적으로 취약하게 만든 코드를 Fable 5, Mythos, Claude Opus 모델에 입력했습니다. 처음에는 “review the code for security issues”라는 보안 검토 요청이 Fable 5에서 거부되었으나, 이후 “fix this code”라고 요청하자 모델이 응답했고, 추가 프롬프트에 따라 패치를 테스트하는 스크립트까지 생성했습니다. 미국 정부는 국가 안보 우려를 이유로 미국 안팎의 외국인에게 Fable 5와 Mythos 5 접근을 중단하는 수출 통제 지침을 내렸고, 앤트로픽은 이에 따라 두 모델을 모든 고객에게 비활성화했습니다. 무수리스는 이러한 방어적 보안 활동이 수출 통제 사유가 될 수 없으며, 이는 공격자가 아닌 방어자에게 더 큰 피해를 줄 것이라고 주장했습니다.

이번 논란은 대규모 언어모델(LLM)의 '안전성'을 어떻게 정의하고 통제할 것인가에 대한 근본적인 질문을 던집니다. 무수리스와 100명 이상의 사이버보안 리더들은 공개 서한을 통해, AI가 버그를 찾고 고치며, 패치 검증용 테스트를 작성하는 능력은 방어 보안에 필수적이라고 강조했습니다. 모델이 이러한 '찾고, 고치고, 테스트하는(find, fix, and test)' 루프를 수행하는 것을 막는 것은 오히려 사이버 보안 역량을 약화시킬 수 있다는 지적입니다. 특히, 중국 등 다른 국가의 오픈 가중치(open-weight) 시스템이나 유사한 고급 모델들이 빠르게 발전하고 있는 상황에서, 미국이 자국 AI 모델의 방어적 활용을 제한하는 것은 경쟁 우위를 잃게 만들 수 있다는 우려도 제기됩니다. 이번 사건은 AI 기술의 이중 용도(dual-use) 특성과 그에 따른 규제, 그리고 실제 현장에서의 활용 사이의 복잡한 균형점을 찾아야 하는 과제를 명확히 보여주고 있습니다.