최근 AI 에이전트 개발이 활발해지면서, 이들이 예상대로 작동하고 원치 않는 행동을 하지 않도록 검증하는 것이 중요해졌습니다. 이러한 요구에 맞춰 AI 에이전트의 행동을 테스트하고 평가하는 오픈소스 도구 'AgentCarousel'이 출시되었습니다. 이 도구는 개발자가 에이전트의 동작을 YAML 파일로 정의하고, 이를 CI/CD 파이프라인에 통합하여 배포 전 에이전트의 신뢰성을 확보할 수 있도록 돕습니다.
AgentCarousel은 에이전트가 수행해야 할 작업과 피해야 할 행동을 '픽스처(fixture)'라는 YAML 파일로 작성합니다. 예를 들어, 특정 주제에 대한 질문에는 답변하고, 관련 없는 질문에는 거절하도록 설정할 수 있습니다. 'agc eval' 명령을 실행하면 정의된 테스트 케이스를 에이전트에 적용하고, 그 결과를 LLM(대규모 언어모델)이 평가하는 'LLM-as-a-judge' 방식으로 점수를 매깁니다. 이 점수는 각 항목에 대한 가중 평균으로 계산되며, 모든 실행 기록은 로컬 데이터베이스에 저장됩니다. 특히, AgentCarousel은 NIST AI RMF, EU AI Act, ISO 42001, HIPAA, FDA SaMD 등 다양한 AI 및 의료 규제 프레임워크에 맞춰 테스트 케이스를 태그하고, 규제 준수 보고서를 자동으로 생성하는 기능을 제공합니다. 이 보고서는 암호화된 서명이 포함된 번들로 내보내져 감사(audit) 증거로 활용될 수 있습니다.
AgentCarousel의 등장은 AI 에이전트 개발 및 배포 과정에서 신뢰성과 규제 준수라는 두 가지 핵심 과제를 해결하는 데 중요한 의미를 가집니다. 개발팀은 이 도구를 통해 에이전트의 행동 회귀(regression)를 사전에 방지하고, 다양한 모델 간 성능을 비교하며 최적의 모델을 선택할 수 있습니다. 또한, 암호화된 서명 증거와 규제 준수 보고서 자동 생성 기능은 AI 시스템에 대한 투명성과 책임성을 높여, 기업이 복잡한 규제 환경 속에서 안심하고 AI를 도입하고 운영할 수 있는 기반을 마련해 줄 것으로 기대됩니다. 이는 AI 기술이 더욱 광범위하게 적용될 미래에 필수적인 요소가 될 것입니다.