클로드 코워크(Claude Cowork)와 같은 AI 협업 도구를 사용하는 기업들이 AI 스킬의 실제 성능을 정확히 파악하기 어렵다는 문제에 직면하고 있습니다. 이러한 맹점을 해결하기 위해 아거스(Argus)가 등장했습니다. 아거스는 클로드 코워크에서 발생하는 모든 세션을 캡처하고 재생하며 품질 보증(QA)하는 솔루션으로, 단순히 스킬 호출 횟수를 넘어 사용자 경험의 질적 측면을 분석하여 AI 스킬의 개선점과 새로운 개발 기회를 제시합니다.
기존 클로드 코워크의 내장 원격 측정(telemetry) 기능은 스킬이 몇 번 호출되었는지 정도만 알려줄 뿐, 스킬이 제대로 작동했는지, 사용자가 그 답변을 수용했는지, 혹은 어떤 부분에서 문제가 발생했는지에 대한 깊이 있는 통찰을 제공하지 못했습니다. 예를 들어, 특정 스킬의 사용 빈도는 높지만 실제로는 사용자들이 여러 번 재시도하거나 다른 도구로 전환하는 등 비효율적인 상호작용이 발생할 수 있습니다. 아거스는 이러한 문제를 해결하기 위해 사용자 프롬프트, AI 어시스턴트의 응답, 모든 도구 호출, 그리고 후속 질문까지 텍스트 형태로 상세히 기록하여 대화의 맥락을 완벽하게 재구성합니다. 이를 통해 스킬이 첫 번째 시도에 성공했는지, 어시스턴트가 불필요하게 사용자에게 추가 정보를 요청했는지, 혹은 도구의 출력이 스킬의 기대치와 달랐는지 등을 명확히 파악할 수 있습니다.
아거스는 또한 ‘아직 스킬로 존재하지 않는’ 사용자 요구 사항을 찾아내는 데도 강점을 보입니다. 여러 사용자가 비슷한 내용의 질문을 다양한 방식으로 반복하지만, 이를 처리할 적절한 스킬이 없어 매번 임시방편적인 답변을 받거나 결국 포기하는 경우를 포착합니다. 아거스는 이러한 '미충족 프롬프트(unmet prompts)' 패턴을 분석하여 새로운 AI 스킬 개발의 우선순위를 제시합니다. 이처럼 아거스는 AI 스킬의 개발부터 배포 후 운영 및 개선에 이르는 전 과정에서 기업이 데이터 기반의 의사결정을 내릴 수 있도록 지원하며, 궁극적으로는 AI 협업 도구의 활용 가치를 극대화하는 데 기여합니다. 이는 AI 도입 기업들이 겪는 '배포 후 맹점'을 해소하고, 지속적인 서비스 개선을 가능하게 하는 중요한 도구로 평가됩니다.