Slack(슬랙) 엔지니어링팀이 대규모 언어모델(LLM) 기반의 AI 에이전트를 활용한 E2E(End-to-End) 테스트의 실용성을 검증하기 위한 실험 결과를 공개했습니다. 이 실험은 기존의 결정론적(deterministic) E2E 테스트 방식이 정해진 UI 경로를 강제하는 것과 달리, 에이전트가 목표(goal) 달성 여부를 검증하며 다양한 경로로 동일한 결과에 도달할 수 있는지 확인하는 데 중점을 두었습니다.
Slack은 200건 이상의 에이전틱 워크플로를 실행하며 신뢰성, 실행 속도, 비용을 측정했습니다. 특히 Playwright MCP(Managed Control Plane) 방식의 에이전트가 가장 안정적인 성능을 보였는데, 단순 시나리오에서는 거의 0%의 실패율을 기록했고 복잡한 플로에서도 0~12%의 낮은 실패율을 유지했습니다. 이는 에이전트가 브라우저의 실시간 상태를 안정적으로 유지하며 상호작용하기 때문으로 분석됩니다. 반면, Playwright CLI 방식은 실패율이 높았고, AI가 코드를 생성하는 방식은 복잡한 워크플로에서 실패율이 48%에 달하며 신뢰성이 크게 떨어졌습니다. 에이전트 실행은 회당 15~30달러의 높은 비용과 10분 이상의 긴 시간이 소요되지만, 동일한 목표에 도달하는 데 20%만이 동일한 동작 순서를 따를 정도로 유연성을 제공했습니다. 이는 에이전트가 메뉴를 다른 순서로 열거나, 다른 UI 요소를 선택하는 등 다양한 탐색 패턴을 보였기 때문입니다.
이번 실험을 통해 에이전틱 테스팅은 기존 테스트를 완전히 대체하기보다는 테스트 피라미드의 최상단에 탐색, 디버깅, 복잡한 동작 검증을 위한 새로운 계층으로 추가될 수 있음을 시사합니다. 결정론적 E2E 테스트가 CI(지속적 통합) 환경에서 빠르고 반복 가능한 회귀 검사에 적합하다면, 에이전틱 테스팅은 정해진 스크립트 없이 UI를 탐색하며 목표 상태 도달 여부를 검증하고, 불안정한(flaky) 워크플로를 디버깅하거나 프로덕션 버그를 재현하는 데 강점을 가질 수 있습니다. 높은 비용과 실행 시간은 여전히 해결해야 할 과제이지만, LLM의 발전과 실행 환경의 최적화를 통해 향후 개선될 여지가 충분합니다. 궁극적으로 가장 효과적인 테스트 전략은 이 두 가지 방식을 결합하여 안정적인 CI 기반 위에 에이전트의 유연한 탐색 능력을 더하는 것이 될 것입니다.