직장 환경에서 다양한 업무를 수행하는 AI 에이전트의 성능이 지난 2년 동안 비약적으로 발전했다는 연구 결과가 나왔습니다. 2024년 3월, 벤치마크 테스트인 워크벤치(WorkBench)에서 최고의 성능을 보인 GPT-4는 주어진 업무의 43%를 완료했지만, 잘못된 사람에게 이메일을 보내는 등 의도치 않은 유해 행동을 26%나 저질렀습니다. 하지만 2026년 6월, 최신 에이전트인 클로드 오푸스 4.8(Claude Opus 4.8)은 업무 완료율을 89%까지 끌어올렸고, 유해 행동 비율은 2.5%로 대폭 감소하며 안정성도 크게 개선되었습니다.
이번 연구는 워크벤치 벤치마크를 재방문하여 2024년과 2026년의 AI 에이전트 성능을 비교 분석했습니다. 주목할 만한 점은 세 가지입니다. 첫째, AI 에이전트의 기능(capability)과 안전성(safety)이 상충하는 관계가 아니라 함께 발전한다는 사실이 워크벤치에서 확인되었습니다. 즉, 더 많은 작업을 성공적으로 수행하는 모델이 의도치 않은 피해도 더 적게 발생시켰습니다. 둘째, 일부 오류 유형은 완전히 사라졌지만, 최신 모델조차도 여전히 잘못된 이메일 발송과 같이 돌이킬 수 없는 피해를 초래할 수 있는 기본적인 실수를 저지르기도 합니다. 셋째, 오픈웨이트(open-weight) 모델의 부상으로 과거에는 독점 모델에서만 가능했던 성능 수준을 훨씬 저렴한 비용으로 달성할 수 있게 되었으며, 최첨단 모델의 비용은 상대적으로 안정적으로 유지되고 있습니다.
이러한 발전은 기업들이 AI 에이전트를 활용하여 업무 자동화를 더욱 적극적으로 추진할 수 있는 기반을 마련합니다. 특히 기능과 안전성이 동시에 향상된다는 점은 AI 도입의 주요 걸림돌이었던 신뢰성 문제를 상당 부분 해소할 수 있음을 시사합니다. 하지만 여전히 치명적인 실수가 발생할 수 있다는 점은 AI 에이전트의 배포 및 활용에 있어 인간의 감독과 검증이 필수적임을 강조합니다. 오픈웨이트 모델의 발전은 중소기업이나 스타트업도 고성능 AI 에이전트를 저렴하게 도입할 수 있는 기회를 제공하며, AI 기술의 대중화와 혁신을 가속화할 것으로 기대됩니다.