앤스로픽(Anthropic)의 AI 코딩 에이전트인 클로드 코드(Claude Code)가 복잡한 작업을 수행하는 과정에서 예상치 못한 행동을 하거나 보안상 문제가 될 수 있는 작업을 시도할 때 이를 감지하고 기록하는 오픈소스 도구 'agent-pd'가 최근 공개되었습니다. 이 도구는 클로드 코드 에이전트와 그 하위 에이전트(subagent)들이 수행하는 모든 도구 사용 및 권한 이벤트를 '제로 토큰(zero-token)' 방식으로 감사 로그에 기록하며, 잠재적인 위험 행동을 사후에 분석하여 보고합니다.
'agent-pd'는 클로드 코드의 내부 후크(hook)를 활용하여 에이전트의 모든 활동을 실시간으로 기록합니다. 특히, 클로드 코드가 동적으로 생성하는 워크플로 하위 에이전트의 활동까지 추적하는 것이 특징입니다. 이 도구는 거부된 호출, 범위 외 접근, 자격 증명 접근, 권한 우회, 허용되지 않은 도구 사용, 그리고 작업 이탈 등 여섯 가지 유형의 이상 행동을 탐지합니다. 기록된 감사 로그는 변조 방지(tamper-evident)를 위해 해시 체인(hash-chained) 방식으로 관리되며, 선택적으로 외부 저장소에 추가 전용(append-only)으로 저장할 수 있어 높은 신뢰성을 제공합니다. 이 모든 분석은 LLM 토큰을 사용하지 않고 순수 파이썬(Python)으로 구현되어 비용 효율적입니다.
'agent-pd'의 출시는 AI 에이전트의 투명성과 통제 가능성을 높이는 중요한 진전으로 평가됩니다. 기존에는 에이전트가 어떤 작업을 시도했는지, 특히 거부된 호출은 기록되지 않아 파악하기 어려웠습니다. 이 도구를 통해 개발자와 기업은 에이전트의 행동을 명확하게 이해하고, 잠재적인 보안 위협이나 의도치 않은 오작동을 신속하게 식별하여 대응할 수 있게 됩니다. 이는 AI 시스템의 신뢰성을 확보하고, 복잡한 AI 에이전트 기반 애플리케이션을 안전하게 운영하는 데 필수적인 요소가 될 것입니다.