앤트로픽(Anthropic)이 자사의 코딩 에이전트인 클로드 코드(Claude Code)와 하위 에이전트들을 어떻게 안전하게 관리하는지에 대한 상세한 내부 통제 아키텍처를 공개했습니다. 이는 파일을 읽고, 셸 명령을 실행하며, 네트워크에 접근하는 AI 에이전트의 보안에 대해 가장 보안에 민감한 AI 기업 중 하나가 어떤 접근 방식을 취하는지 보여주는 드문 사례입니다. 특히, 앤트로픽은 이 아키텍처의 핵심 구성 요소인 샌드박스 런타임(sandbox-runtime)을 오픈소스로 공개하여, 다른 기업들도 자율 에이전트 보안을 강화할 수 있도록 지원합니다.
앤트로픽의 보안 프레임워크는 세 가지 주요 위험 범주인 사용자 오용, 모델 오작동, 외부 공격에 대응하며, 세 가지 방어 계층으로 구성됩니다. 가장 높은 우선순위는 환경 계층으로, 프로세스 및 가상 머신(VM) 샌드박스, 네트워크 이그레스 허용 목록, 파일 시스템 마운트 모드 등 하드웨어 기반의 결정론적 경계를 설정합니다. 그 다음은 모델 계층으로, 시스템 프롬프트, 분류기, 승인 흐름, 프롬프트 주입 방어와 같은 행동 조종을 담당하지만, 100% 효과적일 수는 없음을 명시합니다. 마지막으로 외부 콘텐츠 계층은 MCP 서버 감사, 도구 출력 검사, 커넥터 권한, 프로젝트 로컬 콘텐츠를 적대적 입력으로 취급하는 등 에이전트에 도달하는 데이터를 관리합니다.
이러한 계층화된 방어 전략은 결정론적 경계가 모든 확률적 방어를 놓쳤을 때 최종적으로 작동한다는 앤트로픽의 철학을 반영합니다. 예를 들어, 악성 README.md 파일에 포함된 프롬프트 주입(prompt injection) 공격 사례에서, 샌드박스 런타임은 에이전트가 외부로 민감 정보를 전송하려는 시도를 네트워크 수준에서 차단합니다. 또한, 하이플레임(Highflame)과 같은 중앙 집중식 모니터링 시스템은 에이전트의 모든 행동을 기록하고 위험 점수를 부여하여, 보안팀이 공격 발생 여부와 경위를 파악하고 일관된 정책을 적용할 수 있도록 돕습니다. 이는 단일 에이전트가 아닌, 여러 이기종 에이전트 환경에서 일관된 보안 거버넌스를 구축하는 데 핵심적인 의미를 가집니다.
