최근 AI 에이전트들은 몇 분에서 몇 시간, 심지어 그 이상 지속되는 장기 작업을 수행해야 하는 경우가 늘고 있습니다. 하지만 기존 에이전트의 기본 작동 방식은 도구 호출, 페이지 새로고침, 대안 검색 등 끊임없이 행동하며 진행을 강제하는 '연속 행동' 모델에 기반하고 있습니다. 이러한 접근 방식은 많은 장기 작업에 부적합하며, 오히려 불필요한 자원 낭비로 이어지는 문제가 지적되어 왔습니다.
이러한 문제를 해결하기 위해 새로운 벤치마크인 '센티넬벤치(SentinelBench)'가 공개되었습니다. 센티넬벤치는 에이전트가 환경을 지속적으로 '감시(monitor)'하다가, 외부 이벤트가 발생하여 작업 진행이 가능해질 때만 즉시 반응하도록 설계된 '지속적 주의(sustained attention)' 전략을 측정합니다. 이 오픈소스 벤치마크는 이메일, 캘린더, 금융, 전문 네트워킹, 엔터테인먼트 등 10가지 합성 웹 환경에서 100개의 작업을 제공하며, 실시간 웹 인터페이스에서 스크립트화된 이벤트 시퀀스를 재생하여 에이전트가 변화하는 웹 페이지 상태를 탐색하고 추론하도록 요구합니다. 센티넬벤치는 작업 완료율, 반응 시간, 자원 사용량을 측정하여 반응성과 비용 간의 균형을 평가하며, 세 가지 모델과 두 가지 브라우저-에이전트 하네스를 통해 성능 기준선을 제시했습니다.
센티넬벤치의 등장은 장기 실행 AI 에이전트의 효율성을 획기적으로 개선할 수 있는 중요한 전환점이 될 것으로 보입니다. 기존의 비효율적인 연속 행동 방식에서 벗어나, 필요한 순간에만 개입하는 '감시' 기반의 접근 방식은 에이전트의 자원 사용을 최적화하고 운영 비용을 절감하는 데 크게 기여할 것입니다. 이는 복잡하고 지속적인 상호작용이 필요한 실제 비즈니스 환경에서 AI 에이전트의 실용성과 적용 범위를 넓히는 데 필수적인 요소로 작용할 것입니다. 앞으로 센티넬벤치는 더욱 효율적이고 지능적인 차세대 AI 에이전트 개발을 위한 핵심적인 평가 도구로 활용될 전망입니다.