대규모 언어모델(LLM)을 기반으로 하는 AI 에이전트 시스템은 빠르게 진화하며 스스로 의사결정을 내리는 자율 시스템으로 거듭나고 있습니다. 이러한 발전은 기존 LLM의 취약점을 넘어선 새로운 공격 벡터(attack vector)를 노출시키며, 에이전트 시스템의 보안 평가에 대한 중요성을 부각하고 있습니다.
기존의 보안 평가 방식은 특정 구현이나 도메인에 국한되어 있어, 이질적인 에이전트 시스템들 간의 통일된 비교 평가가 어렵다는 한계가 있었습니다. 이러한 간극을 해소하기 위해, 연구진은 'RIFT-Bench'라는 새로운 동적 레드팀 방법론을 제안했습니다. RIFT-Bench는 그래프(graph) 표현 기반의 계층적 구조를 활용하여 다양한 에이전트 아키텍처에 걸쳐 통합된 보안 평가를 가능하게 합니다. 이 방법론은 두 가지 자동화된 단계로 작동하는데, 첫 번째 '발견(Discovery)' 단계에서는 시스템 구조를 추출하고, 두 번째 '스캐닝(Scanning)' 단계에서는 적응형 적대적 공격(adaptive adversarial attacks)을 배포하여 포괄적인 평가 보고서를 생성합니다.
RIFT-Bench는 45개에 달하는 다양한 에이전트 시스템에 걸쳐 그 효과를 입증했으며, 이질적인 에이전트 아키텍처에도 효과적으로 일반화될 수 있음을 보여주었습니다. 이는 시스템과 공격뿐만 아니라, 완화 전략(mitigation strategies)에 대한 직접적인 평가도 지원합니다. 이러한 핵심 기능들은 RIFT-Bench를 AI 에이전트 시스템의 보안 평가를 위한 확장 가능한 기반으로 만들며, 빠르게 발전하는 AI 에이전트 생태계에서 보안 표준을 확립하는 데 중요한 역할을 할 것으로 기대됩니다.
