인공지능(AI) 모델이 단순한 질문 답변을 넘어 복잡한 지식 업무(knowledge work)를 수행하는 능력을 평가하는 새로운 벤치마크 'AA-Briefcase'가 공개되었습니다. 이 벤치마크는 실제 기업 환경과 유사한 장기 프로젝트를 통해 AI의 에이전트(agentic) 역량을 종합적으로 측정하며, 특히 수많은 파편화된 정보 속에서 문제를 해결하고 고품질의 결과물을 만들어내는 능력을 중점적으로 평가합니다.
AA-Briefcase는 데이터 과학, 제품 관리, 기업 전략 등 실제 업무 시나리오를 바탕으로 수천 개의 입력 파일과 91개의 연계된 태스크로 구성된 다중 주차(multi-week) 프로젝트를 모델에게 부여합니다. 각 태스크는 재무 모델, 이사회 발표 자료, 디자인 목업(mock-up) 등 실제 기업에서 요구하는 산출물을 제작하도록 설계되었습니다. 평가는 정답 여부를 판단하는 루브릭(rubric) 방식과 함께, 분석 품질 및 발표 품질을 다른 모델과 비교하는 쌍대(pairwise) 평가를 결합하여 모델의 종합적인 에이전트 역량을 다각도로 분석합니다. 현재 클로드 페이블 5(Claude Fable 5)가 가장 높은 AA-Briefcase Elo 점수를 기록했으며, 오픈소스 모델 중에서는 GLM-5.2(max)가 높은 성능과 비용 효율성을 보여주고 있습니다.
이 벤치마크는 AI 모델의 실제 비즈니스 적용 가능성을 가늠하는 중요한 전환점이 될 것으로 보입니다. 기존 벤치마크들이 단일 프롬프트나 제한된 맥락에서의 성능을 측정했다면, AA-Briefcase는 수백 개의 이메일, 슬랙 메시지, 회사 문서 등 파편화되고 모호한 실제 데이터를 처리하며 복잡한 문제를 해결하는 능력을 평가합니다. 이는 AI가 단순한 도구를 넘어 실제 업무 흐름에 통합되어 고부가가치 지식 업무를 수행하는 '에이전트'로서의 잠재력을 보여주며, 기업들이 AI 도입을 결정할 때 더욱 현실적인 판단 기준을 제공할 것입니다.