코딩 특화 인공지능(AI) 개발 도구 커서(Cursor)가 자체 코딩 모델 평가 벤치마크인 'CursorBench 3.1' 결과를 발표했습니다. 이 평가에서 Fable 5 계열 모델들이 1위부터 4위까지를 모두 차지하며 다른 경쟁 모델들을 크게 앞섰습니다. 특히 Fable 5 Max는 72.9%의 점수로 1위를 기록하며, 코딩 AI 모델 성능의 새로운 기준점을 제시했습니다.
이번 CursorBench 3.1은 기존 평가 항목에 코드베이스 이해, 버그 찾기, 계획 수립, 코드 리뷰 등 실제 개발 환경에서 중요한 복합적인 코딩 작업들을 추가하고, 일부 편집 작업의 채점 기준을 개선하여 모델의 실질적인 코딩 역량을 더욱 정확하게 측정하고자 했습니다. Fable 5 Max에 이어 Fable 5 Extra High(72.0%), Fable 5 High(70.6%), Fable 5 Medium(69.8%)이 뒤를 이었으며, 5위권 밖으로는 Opus 4.7 Max(64.8%), GPT-5.5 Extra High(64.3%) 등이 이름을 올렸습니다. 또한, 각 모델의 평균 작업당 비용도 함께 공개되어 성능과 비용 효율성을 동시에 고려할 수 있는 정보를 제공합니다.
이러한 벤치마크 결과는 개발자들이 특정 코딩 작업에 최적화된 AI 모델을 선택하는 데 중요한 참고 자료가 될 것입니다. 특히 Fable 5와 같이 특정 작업에서 높은 성능을 보이는 모델은 개발 생산성 향상에 크게 기여할 수 있습니다. 다만, 벤치마크의 평가 기준과 모델의 학습 데이터 분포에 따라 결과가 달라질 수 있다는 점을 인지하고, 다양한 벤치마크와 실제 사용 경험을 종합적으로 고려하여 모델을 선택하는 것이 중요합니다. 일례로, 커서의 자체 모델인 Composer 2.5가 CursorBench에서는 높은 순위를 기록했지만, DeepSWE와 같은 제3자 벤치마크에서는 상대적으로 낮은 평가를 받기도 했습니다. 이는 각 벤치마크가 중점적으로 평가하는 작업 유형과 모델의 강점이 일치하는지에 따라 결과가 달라질 수 있음을 보여줍니다.
결론적으로, 이번 CursorBench 3.1 결과는 코딩 AI 모델 시장의 경쟁이 심화되고 있으며, 각 모델이 특정 코딩 작업 영역에서 차별화된 강점을 가지고 발전하고 있음을 시사합니다. 개발자들은 자신의 프로젝트 특성과 예산에 맞춰 가장 적합한 AI 모델을 선택함으로써 개발 효율성을 극대화할 수 있을 것입니다. 또한, AI 모델 개발사들은 다양한 벤치마크에서 일관된 고성능을 보여주기 위해 모델의 범용성과 특정 작업에 대한 깊이 있는 이해를 동시에 강화해야 할 과제를 안게 되었습니다.