최근 공개된 연구에 따르면, '제니스(Zenith)'라는 에이전트 하네스(harness)가 GPT-5.5의 소프트웨어 엔지니어링 작업 수행 능력을 크게 향상시켜, 경쟁 모델인 클로드 패이블(Claude Fable)을 능가하는 성과를 달성했습니다. 이는 대규모 언어모델(LLM)의 성능을 높이는 데 있어 모델 자체의 크기나 최신 버전보다는, 모델을 효과적으로 제어하고 관리하는 외부 시스템, 즉 '하네스'의 역할이 훨씬 중요하다는 점을 시사합니다.
제니스는 장기적이고 복잡한 소프트웨어 엔지니어링 작업을 위해 설계된 에이전트 하네스로, 모델이 작업을 계획하고, 테스트하며, 지속적으로 개선해 나갈 수 있도록 돕습니다. 특히, '프론티어 SWE(Frontier SWE)'라는 고난도 소프트웨어 엔지니어링 벤치마크에서 GPT-5.5에 제니스를 적용한 결과, 기존 5위에서 1위로 뛰어오르며 클로드 패이블을 앞질렀습니다. 이 벤치마크는 에이전트에게 20시간이라는 긴 작업 시간을 부여하지만, 대부분의 모델은 과신으로 인해 자체 테스트에서 오류를 발견하지 못하고 조기에 작업을 제출하는 경향이 있었습니다. 제니스는 이러한 문제를 해결하기 위해 독립적이고 증거 기반의 테스트를 수행하여, 모델이 잘못된 해결책을 올바르다고 판단하는 오류를 줄였습니다. 또한, '메타-제니스(Meta-Zenith)'는 새로운 작업 유형에 맞춰 최적의 제니스 하네스를 자동으로 생성하는 기능을 제공하여, 수동 설정의 한계를 극복합니다.
이러한 결과는 최신 고성능 모델에 대한 접근이 제한적인 현 상황에서 매우 중요한 의미를 가집니다. 클로드 패이블 5(Claude Fable 5)와 GPT-5.6 솔(Sol)과 같은 최신 모델들은 미국 수출 통제 지침이나 제한된 파트너십으로 인해 일반적인 접근이 어렵습니다. 따라서, 현재 사용 가능한 모델의 잠재력을 최대한 끌어올릴 수 있는 하네스 기술은 개발자들이 당면한 문제를 해결하고 혁신을 지속할 수 있는 핵심적인 수단이 될 것입니다. 이는 모델 자체의 발전뿐만 아니라, 모델을 둘러싼 시스템 설계와 최적화가 AI 에이전트의 실제 문제 해결 능력에 결정적인 영향을 미친다는 것을 분명히 보여줍니다.
