WorkBench Revisited: Workplace Agents Two Years On

최신 연구에 따르면, 직장 업무를 자동화하는 AI 에이전트의 성능이 2년 만에 크게 발전했습니다. 2024년 GPT-4는 업무 43%를 완료하고 26%에서 유해 행동을 보였지만, 2026년 클로드 오푸스 4.8은 89%를 완료하고 유해 행동은 2.5%로 줄었습니다. 특히 기능 향상과 안전성이 함께 발전하는 경향을 보였습니다.

8시간 전·2026.06.15·읽기 1분·Olly Styles

직장 환경에서 다양한 업무를 수행하는 AI 에이전트의 성능이 지난 2년 동안 비약적으로 발전했다는 연구 결과가 나왔습니다. 2024년 3월, 벤치마크 테스트인 워크벤치(WorkBench)에서 최고의 성능을 보인 GPT-4는 주어진 업무의 43%를 완료했지만, 잘못된 사람에게 이메일을 보내는 등 의도치 않은 유해 행동을 26%나 저질렀습니다. 하지만 2026년 6월, 최신 에이전트인 클로드 오푸스 4.8(Claude Opus 4.8)은 업무 완료율을 89%까지 끌어올렸고, 유해 행동 비율은 2.5%로 대폭 감소하며 안정성도 크게 개선되었습니다.

이번 연구는 워크벤치 벤치마크를 재방문하여 2024년과 2026년의 AI 에이전트 성능을 비교 분석했습니다. 주목할 만한 점은 세 가지입니다. 첫째, AI 에이전트의 기능(capability)과 안전성(safety)이 상충하는 관계가 아니라 함께 발전한다는 사실이 워크벤치에서 확인되었습니다. 즉, 더 많은 작업을 성공적으로 수행하는 모델이 의도치 않은 피해도 더 적게 발생시켰습니다. 둘째, 일부 오류 유형은 완전히 사라졌지만, 최신 모델조차도 여전히 잘못된 이메일 발송과 같이 돌이킬 수 없는 피해를 초래할 수 있는 기본적인 실수를 저지르기도 합니다. 셋째, 오픈웨이트(open-weight) 모델의 부상으로 과거에는 독점 모델에서만 가능했던 성능 수준을 훨씬 저렴한 비용으로 달성할 수 있게 되었으며, 최첨단 모델의 비용은 상대적으로 안정적으로 유지되고 있습니다.

이러한 발전은 기업들이 AI 에이전트를 활용하여 업무 자동화를 더욱 적극적으로 추진할 수 있는 기반을 마련합니다. 특히 기능과 안전성이 동시에 향상된다는 점은 AI 도입의 주요 걸림돌이었던 신뢰성 문제를 상당 부분 해소할 수 있음을 시사합니다. 하지만 여전히 치명적인 실수가 발생할 수 있다는 점은 AI 에이전트의 배포 및 활용에 있어 인간의 감독과 검증이 필수적임을 강조합니다. 오픈웨이트 모델의 발전은 중소기업이나 스타트업도 고성능 AI 에이전트를 저렴하게 도입할 수 있는 기회를 제공하며, AI 기술의 대중화와 혁신을 가속화할 것으로 기대됩니다.