AI 어시스턴트, 2천 명의 해킹 시도에도 끄떡없었던 비결

한 개발자가 자신의 AI 어시스턴트 'Fiu'를 상대로 공개 프롬프트 인젝션 챌린지를 진행했습니다. 2천 명이 넘는 참가자들이 6천 건 이상의 공격을 시도했지만, Fiu는 단 한 번도 비밀 정보를 유출하지 않았습니다. 이는 몇 줄의 간단한 보안 프롬프트와 강력한 AI 모델 덕분으로, AI 에이전트 보안에 대한 새로운 낙관론을 제시합니다.

4일 전·2026.06.27·읽기 2분·neo https://news.hada.io/user/neo

최근 한 개발자가 자신의 AI 어시스턴트 'Fiu'를 대상으로 흥미로운 공개 실험을 진행했습니다. 'hackmyclaw.com'이라는 웹사이트를 통해 2천 명이 넘는 참가자들이 6천 건 이상의 이메일로 Fiu를 속여 내부 비밀 정보(secrets.env)를 유출시키려 했지만, Fiu는 단 한 번도 성공적인 공격을 허용하지 않았습니다. 이는 AI 에이전트의 보안 취약점으로 지목되던 프롬프트 인젝션(Prompt Injection)에 대한 우려를 일부 해소하는 결과로 주목받고 있습니다.

Fiu는 OpenClaw 기반의 AI 어시스턴트로, 이메일에 답장하지 않고 특정 파일 내용을 공개하거나 외부로 데이터를 유출하지 말라는 몇 줄의 간단한 보안 프롬프트 규칙을 가지고 있었습니다. 공격자들은 관리자 사칭, 긴급 사고 대응 요청, 컴플라이언스 감사, 심지어 '미래의 자신' 역할극 등 다양한 사회공학적 기법과 다국어(프랑스어, 스페인어, 이탈리아어)를 활용해 Fiu를 속이려 했습니다. 실험 과정에서 Fiu의 Gmail 계정이 정지되거나 500달러 이상의 API 비용이 발생하는 등 예상치 못한 문제도 있었지만, 개발자는 각 이메일을 독립적인 컨텍스트에서 처리하도록 설정을 변경하며 실험의 신뢰도를 높였습니다. 사용된 모델은 Anthropic이 프롬프트 인젝션 저항성을 위해 특별히 훈련한 Claude Opus 4.6이었습니다.

이번 실험은 AI 에이전트의 보안, 특히 프롬프트 인젝션 방어에 대한 중요한 시사점을 제공합니다. 강력한 대규모 언어모델(LLM)과 명확한 보안 지침이 결합될 경우, 상당한 수준의 공격 시도를 효과적으로 막아낼 수 있음을 보여주었습니다. 물론, 더 약한 모델이나 더 높은 포상금이 걸린 상황에서는 결과가 달라질 수 있다는 한계점도 지적되지만, 이번 성공적인 방어는 AI 에이전트의 신뢰성에 대한 낙관적인 전망을 제시합니다. 앞으로 AI 에이전트가 더 많은 권한을 가지고 실제 업무에 투입될수록 보안은 더욱 중요해질 것이며, 이번 실험은 그 가능성과 함께 지속적인 연구의 필요성을 동시에 보여주고 있습니다.