AI 에이전트 오작동 방지, '렐루'가 해답 제시

AI 에이전트가 프롬프트 주입(prompt injection) 등으로 오작동하는 것을 실시간으로 탐지하고 제어하는 오픈소스 권한 부여 엔진 '렐루(Lelu)'가 공개되었습니다. 기존 보안 도구가 놓쳤던 '정상 권한 에이전트의 오용' 문제를 해결하며, 사람의 개입(human-in-the-loop) 및 대체 작업 지시 등 네 가지 대응 방안을 제공해 AI 시스템의 안정성을 높입니다.

6시간 전·2026.06.21·읽기 2분·Abenezer0923

AI 에이전트의 활용이 늘면서, 의도치 않은 조작이나 오작동으로 인한 위험도 커지고 있습니다. 이러한 문제를 해결하기 위해, AI 에이전트의 런타임 조작을 탐지하고 제어하는 오픈소스 권한 부여 엔진 '렐루(Lelu)'가 최근 공개되어 주목받고 있습니다. 렐루는 에이전트의 모든 행동을 검사하고 의사결정을 기록하며, 필요할 경우 사람의 개입을 통해 안전성을 확보하는 것을 목표로 합니다.

기존의 접근 제어 도구(예: OPA, Casbin)가 '누가 무엇을 할 수 있는지'에 초점을 맞춰 무단 접근을 차단했다면, 렐루는 한발 더 나아가 '정상적인 권한을 가진 에이전트가 잘못된 행동을 할 때'를 탐지합니다. 이는 프롬프트 주입(prompt injection), 낮은 신뢰도(low-confidence)의 의사결정, 비정상적인 행동 등으로 에이전트가 조작될 수 있는 위험을 방지합니다. 렐루는 5단계의 프롬프트 주입 필터링, 신뢰도 게이트, 정책 평가, 위험 모델 등 다층적인 파이프라인을 통해 에이전트의 모든 액션을 분석하며, '허용', '인간 검토', '대체 작업 지시', '거부'의 네 가지 의사결정 결과를 제공합니다. 특히, 프롬프트 주입이 감지되면 정책 실행 전에 차단하는 강력한 보안 기능을 갖추고 있습니다.

렐루의 등장은 AI 에이전트 기반 서비스의 신뢰성과 안정성을 한 단계 끌어올릴 수 있는 중요한 진전으로 평가됩니다. 개발자들은 렐루 SDK를 통해 쉽게 기존 AI 애플리케이션에 통합하여 에이전트의 행동을 모니터링하고 제어할 수 있으며, OpenAI, Anthropic, LangChain 등 주요 AI 프레임워크와도 호환됩니다. 이는 기업들이 AI 에이전트를 더 안심하고 실제 업무 환경에 도입할 수 있게 하며, 잠재적인 보안 위협으로부터 사용자와 데이터를 보호하는 데 기여할 것입니다. 궁극적으로 AI 에이전트의 오작동으로 인한 피해를 줄이고, AI 시스템 전반의 안전한 운영을 위한 필수적인 인프라 역할을 할 것으로 기대됩니다.