앤트로픽(Anthropic)이 자사 AI 에이전트 클로드(Claude)의 잠재적 위험을 관리하기 위한 '봉쇄(containment)' 전략을 공개했습니다. AI 에이전트의 능력과 시스템 접근 권한이 커지면서 예상치 못한 피해 발생 가능성도 함께 증가함에 따라, 앤트로픽은 클로드 웹(claude.ai), 클로드 코드(Claude Code), 클로드 코워크(Claude Cowork) 등 각 제품의 특성에 맞는 격리 아키텍처를 구축했습니다. 이는 에이전트가 '무엇을 하는지'보다 '무엇을 할 수 있는지'를 제한하는 데 중점을 둔 접근 방식입니다.
앤트로픽은 에이전트의 위험을 사용자 오용(User misuse), 모델 오작동(Model misbehavior), 외부 공격자(External attackers)의 세 가지 유형으로 분류하고, 이에 대응하기 위한 세 가지 방어 구성 요소를 마련했습니다. 첫째, 에이전트가 실행되는 환경에 프로세스 샌드박스(sandbox), 가상 머신(VM), 파일시스템 경계, 이그레스(egress) 제어를 적용해 하드 경계를 설정합니다. 둘째, 에이전트가 참조하는 모델 자체에는 시스템 프롬프트나 분류기를 통해 경향을 조정하지만, 이론적 가능 범위는 통제하지 못한다고 인정하며 환경 계층 방어의 중요성을 강조합니다. 셋째, 에이전트가 도달하는 외부 콘텐츠는 감사된 커넥터라도 오염된 데이터를 주입할 수 있으므로 주의해야 한다고 언급했습니다.
실제로 앤트로픽은 클로드 웹에 임시 컨테이너를, 클로드 코드에 사람 개입 샌드박스를, 클로드 코워크에 로컬 가상 머신을 적용하는 세 가지 격리 패턴을 사용했습니다. 특히 클로드 코드의 경우, 초기에는 사용자 승인(human-in-the-loop) 방식을 사용했으나 '승인 피로'로 인해 감독이 느슨해지는 문제가 발생하자 OS 수준 샌드박스를 도입하여 권한 프롬프트 수를 84% 감소시키는 효과를 보았습니다. 또한, 사용자가 동의하기 전에 실행되는 코드 취약점이나 피싱을 통한 프롬프트 인젝션 공격 사례를 통해 환경 계층에서의 봉쇄 설계가 모델 계층보다 우선되어야 하며, 직접 만든 커스텀 구성 요소가 가장 취약한 지점임을 깨달았다고 밝혔습니다. 이러한 경험은 AI 에이전트의 안전한 배포를 위한 실질적인 교훈을 제공하며, 향후 AI 시스템 개발에 있어 보안 설계의 중요성을 다시 한번 상기시킵니다.