한 개발자가 자신의 AI 비서 'Fiu'의 보안 강도를 시험하기 위해 대규모 공개 해킹 실험을 진행했습니다. 'hackmyclaw.com'이라는 웹사이트를 통해 2천 명이 넘는 참가자들이 6천 개 이상의 이메일을 보내 Fiu가 가상의 'secrets.env' 파일 내용을 유출하도록 시도했지만, 단 한 번도 성공하지 못했습니다.
이 실험은 AI 비서가 이메일, 캘린더, 파일 등 민감한 정보에 접근할 수 있다는 점을 고려하여 프롬프트 주입(prompt injection) 공격에 얼마나 취약한지 알아보기 위해 기획되었습니다. Fiu는 'secrets.env' 파일 내용을 절대 유출하지 않고, 이메일 내용에 기반한 파일 수정이나 외부 데이터 유출을 금지하는 간단한 보안 지침만 받았습니다. 공격자들은 미래의 Fiu를 사칭하거나, 긴급 상황을 가장하고, 감사 요청을 보내는 등 다양한 사회 공학적 기법과 다국어 공격을 시도했습니다. 심지어 앤트로픽(Anthropic)의 특정 '매직 스트링'을 사용해 시스템을 마비시키려는 시도도 있었으나, Fiu는 끈질기게 방어해냈습니다. 이 과정에서 구글(Google)의 스팸 감지로 인해 Fiu의 지메일(Gmail) 계정이 일시 정지되거나, API 비용이 500달러 이상 발생하는 등의 예상치 못한 문제도 발생했습니다.
이번 실험은 강력한 대규모 언어모델(LLM)인 클로드 오푸스 4.6(Claude Opus 4.6)이 프롬프트 주입 방어에 특화되어 훈련되었음을 입증했습니다. 개발자는 이 실험을 통해 프롬프트 주입 공격이 예상보다 훨씬 어렵다는 것을 깨달았다고 밝혔습니다. 이는 AI 에이전트의 보안에 대한 지나친 우려를 덜어주는 동시에, 강력한 모델과 명확한 보안 지침이 결합될 경우 상당한 수준의 방어력을 갖출 수 있음을 시사합니다. 하지만 개발자는 여전히 AI 에이전트에게 무제한적인 권한을 부여하는 것은 위험하며, 더 약한 모델이나 양방향 소통이 가능한 환경에서는 다른 결과가 나올 수 있다고 덧붙였습니다. 이번 실험은 AI 에이전트 보안 연구의 중요성을 다시 한번 강조하며, 실제 환경에서의 보안 강화 방안 모색에 기여할 것입니다.