대규모 언어모델(LLM)의 성능을 평가하는 새로운 벤치마크 '키친 러시(Kitchen Rush)'가 개발되어 주목받고 있습니다. 기존의 툴 호출(tool-calling) 벤치마크들이 모델이 올바른 툴을 호출하는지에만 초점을 맞췄던 것과 달리, 키친 러시는 정확성뿐만 아니라 추론(inference) 속도까지 함께 측정하여 실시간 애플리케이션에 적합한 모델을 선별할 수 있도록 돕습니다. 모델이 정답을 찾더라도 너무 오래 걸리면 실제 서비스에서는 쓸모없다는 문제 의식에서 출발했습니다.
키친 러시는 인기 게임 '오버쿡드(Overcooked)'에서 영감을 받아, LLM이 주방장 역할을 맡아 주문을 처리하는 방식으로 진행됩니다. '재료 수집(collect)', '다지기(chop)', '요리(cook)', '접시 담기(plate)', '서빙(serve)'과 같은 함수 호출(function calls)을 통해 요리를 만들고, 제한 시간 내에 주문을 완료해야 합니다. 모델이 생각하는 시간은 게임 내 시간으로 소모되며, 이로 인해 음식이 타거나 주문 마감 기한을 놓칠 수 있습니다. 결정적인 순간에 여러 호출을 한 번에 처리하면 지연 시간을 한 번만 지불하는 등, 신속한 의사결정이 보상받는 구조입니다. 각 에피소드는 0점에서 100점 사이의 'KR(Kitchen Rush) 점수'로 평가되며, 이는 '아무것도 하지 않는 것'과 '지연 시간 없는 스크립트 기반 셰프' 사이에서 모델이 얼마나 격차를 줄였는지를 보여줍니다.
이 벤치마크의 핵심은 '지연 시간 예산(latency budget, B)'이라는 유연한 설정입니다. B 값은 각 결정에 허용되는 시간(초)을 의미하며, 예를 들어 B=1초는 음성 비서처럼 한 번의 결정이 약 65개의 출력 토큰(output tokens) 내에 이루어져야 하는 실시간 환경을 시뮬레이션합니다. 반면 B=5초는 약 730개의 토큰을 허용하여, 짧은 추론 과정을 거칠 수 있는 대화형 비서 환경에 가깝습니다. 동일한 모델이라도 B 값에 따라 순위가 크게 달라질 수 있으며, 이는 특정 사용 사례에 가장 적합한 모델을 선택하는 데 중요한 기준이 됩니다. 키친 러시는 실시간 에이전트, 라이브 운영 시스템 등 속도가 중요한 LLM 기반 서비스 개발에 필수적인 통찰을 제공하며, 모델 개발자들이 실제 배포 환경을 고려한 최적화에 집중하도록 유도할 것입니다.