최근 인공지능(AI) 기술 발전과 함께 컴퓨터 사용 에이전트(CUA, Computer-Use Agent)의 역량이 빠르게 향상되고 있습니다. 이 에이전트들은 시각 및 제어 기본 요소를 통해 그래픽 사용자 인터페이스(GUI)를 조작하며, OSWorld와 같은 표준화된 온라인 평가 벤치마크 덕분에 훈련 및 평가가 활발히 이루어졌습니다. 하지만 이러한 벤치마크들은 주로 리눅스(Linux) 환경에 초점을 맞추고 있어, 애플(Apple)의 맥OS(macOS) 환경은 상대적으로 소외되어 왔습니다.
이러한 공백을 메우기 위해 'MacArena'라는 새로운 벤치마크가 등장했습니다. MacArena는 총 421개의 수동으로 검증된 태스크를 포함하며, 50가지 애플리케이션(application)에 걸쳐 다양한 작업을 수행합니다. 이 벤치마크는 기존 OSWorld 태스크를 맥OS에 맞게 재구성하고, macOSWorld의 콘텐츠를 통합하며, 49개의 새로운 맥OS 고유 태스크를 추가했습니다. 특히 애플 실리콘(Apple Silicon) 기반의 가상화 프레임워크(Virtualization framework)에서 구동되어, 기존 x86 가상 머신(virtual machine)의 호환성 문제를 해결했습니다.
연구진은 맥OS가 리눅스 기반 벤치마크로는 포착하기 어려운 독특한 GUI 도전 과제를 제시한다고 주장합니다. 실제로 MacArena를 통한 평가 결과, 기존 벤치마크에서 우수한 성능을 보인 모델들이 맥OS 고유 태스크에서는 26% 이상 낮은 성능을 기록하며 순위가 뒤바뀌는 현상이 관찰되었습니다. 이는 현재 GUI 에이전트에게 맥OS 환경이 훨씬 더 어려운 과제임을 시사하며, MacArena가 진정한 크로스 플랫폼(cross-platform) GUI 역량을 평가하는 데 중요한 도구가 될 것임을 보여줍니다. 이 벤치마크는 맥OS 환경에 특화된 AI 에이전트 개발을 촉진하고, 더욱 범용적인 컴퓨터 사용 에이전트의 등장을 앞당기는 데 기여할 것으로 기대됩니다.