최근 쿠쇼AI(KushoAI)가 7가지 인공지능(AI) 시스템의 API 버그 탐지 능력을 평가한 '블랙박스 평가' 보고서를 발표했습니다. 이 평가는 AI가 생성한 테스트 케이스가 실제 운영 중인 API에서 기능적 버그를 얼마나 효과적으로 찾아내는지 측정하는 데 중점을 두었습니다. 특히, 단순한 스키마 오류를 넘어 복잡한 비즈니스 로직 관련 버그 탐지에서 AI 시스템 간의 성능 차이가 크게 벌어졌습니다.
이번 평가는 7개 애플리케이션 도메인에 걸친 20개의 실제 API 시나리오와 97개의 의도적으로 심어놓은 기능 버그를 대상으로 진행되었습니다. 각 AI 시스템에는 JSON 스키마와 유효한 샘플 페이로드만 제공되었으며, 소스 코드나 추가 문서 없이 버그를 찾아내는 테스트 케이스를 생성해야 했습니다. 평가된 시스템은 범용 대규모 언어모델(LLM), 코딩 에이전트, 그리고 쿠쇼AI 자체 시스템으로 나뉘었습니다. 결과적으로 쿠쇼AI는 복잡한 버그 탐지율 76%를 기록하며 가장 우수한 성능을 보였고, 가장 강력한 코딩 에이전트 워크플로우는 53%, 범용 LLM은 34%에 그쳤습니다. 이는 특히 프로덕션 위험과 직결되는 교차 필드 및 비즈니스 로직 버그 탐지에서 큰 격차를 보여주었습니다.
이 보고서는 AI 기반 테스트 도구가 단순히 그럴듯한 테스트 스위트를 생성하는 것을 넘어, 실제로 버그를 찾아내 서비스의 안정성을 높이는 데 기여할 수 있는지에 대한 중요한 질문을 던집니다. 단순한 스키마 수준의 테스트(예: 누락된 필드, 잘못된 유형)는 이제 대부분의 AI 시스템에서 기본적으로 제공되는 기능이 되었지만, 실제 운영 환경에서 발생하는 복잡한 비즈니스 규칙 위반이나 여러 필드 간의 상호작용 오류를 탐지하는 능력은 여전히 전문화된 AI 시스템의 영역임을 시사합니다. 따라서 기업들은 AI 기반 테스트 도구를 도입할 때, 단순히 테스트 생성량보다는 실제 버그 탐지 능력, 특히 복잡한 시나리오에 대한 대응력을 면밀히 평가해야 할 것입니다.
