AWS 샘플 프로젝트인 GEDD(Grounded Evaluation for Domain Experts)가 AI 에이전트의 잠재적 오류를 사용자에게 노출되기 전에 효과적으로 식별하고 개선할 수 있는 새로운 평가 방법론을 제시했습니다. 이 도구는 특히 제품 관리자와 도메인 전문가가 AI 에이전트의 미처 예상치 못한 실패 지점을 발견하고, 이를 기반으로 견고한 평가 파이프라인을 구축하도록 돕는 데 초점을 맞춥니다.
GEDD는 두 가지 주요 페르소나(도메인 전문가, 머신러닝 엔지니어)가 협력하는 6단계 워크플로우를 제안합니다. 먼저 도메인 전문가가 클로드(Claude) 에이전트와 직접 대화하며 20개 내외의 '골든 쿼리(Golden Queries)'를 생성하고, 에이전트의 응답을 '정상', '경고', '실패'로 직접 분류하며 오류 유형을 정의합니다. 예를 들어, 약학 분야에서는 '용량 단위 혼동'과 같은 치명적인 오류를, 보험 분야에서는 '정책 미확인 환각'과 같은 신뢰성 문제를 전문가의 시각으로 포착합니다. 이렇게 수집된 데이터는 'session.json' 파일 형태로 머신러닝 엔지니어에게 전달되어, 세이지메이커(SageMaker) MLflow 파이프라인을 통해 자동화된 평가 기준(Judge)으로 전환됩니다. 이 평가 기준은 CI/CD 파이프라인에 통합되어 AI 에이전트의 회귀(regression)를 방지하고 지속적인 품질 관리를 가능하게 합니다.
GEDD의 핵심은 '배포 후 테스트' 전략입니다. 에이전트가 시스템 프롬프트만으로 배포된 상태에서 실제 환경과 동일한 조건(지연 시간, IAM 권한, 콜드 스타트 등)에서 테스트를 진행하여 현실적인 오류를 발견합니다. 또한, 이 파이프라인은 선형적이지 않고 지속적인 피드백 루프를 형성합니다. 프로덕션 환경에서 새로운 오류가 발견되면 즉시 새로운 테스트 케이스로 추가되어 평가 스위트가 에이전트와 함께 성장하도록 설계되었습니다. 이는 AI 에이전트의 신뢰성을 지속적으로 향상시키고, 규정 준수 및 사용자 만족도를 높이는 데 중요한 역할을 할 것으로 기대됩니다. AWS 네이티브 서비스만을 활용하여 외부 서비스 의존성 없이 보안과 확장성을 확보한 점도 특징입니다.