ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledge in LLMs

대규모 언어모델(LLM)이 다양한 도구(tool)를 활용하는 에이전트(agent)로 진화하면서, 방대한 도구 목록에서 필요한 도구를 정확히 찾아내는 것이 핵심 과제로 떠올랐습니다. 기존의 임베딩 기반 검색 방식은 전문적인 도구의 의미를 충분히 포착하지 못하는 한계가 있었고, 이를 개선하기 위해 각 도구를 가상 토큰(virtual token)으로 인코딩하여 LLM의 어휘에 추가하고 미세조정(fine-tuning)하는 '매개변수적 도구 검색(parametric tool retrieval)' 방식이 제안되었습니다. 이 방식은 표준 벤치마크에서 우수한 성능을 보였지만, 모델이 도구를 실제로 이해하는지에 대한 의문은 남아있었습니다.

최근 연구진은 이러한 문제를 해결하기 위해 오픈소스 진단 프레임워크 'ToolSense'를 공개했습니다. ToolSense는 어떤 도구 카탈로그든 입력받아 세 가지 유형의 벤치마크를 자동으로 생성합니다. 첫째, 현실적인 검색 벤치마크(Realistic Retrieval Benchmark, RRB)는 세 가지 모호성 수준의 질의를 포함하여 실제 사용 환경을 모방합니다. 둘째, 객관식(MCQ) 질문 벤치마크와 셋째, 질의응답(QA) 벤치마크는 모델이 도구의 사실적 지식을 얼마나 이해하는지 직접적으로 평가합니다. 연구팀은 약 4만 7천 개의 도구를 포함하는 ToolBench에 ToolSense를 적용하고 여러 매개변수 모델 구성(parametric model configurations)을 평가한 결과, 놀라운 '지식-검색 괴리(knowledge-retrieval dissociation)' 현상을 발견했습니다. RRB 질의에서 일부 모델 구성은 기존 벤치마크 대비 성능이 50~64% 포인트 급락하며 임베딩 모델의 기준선보다도 낮은 결과를 보였습니다. 또한, 검색 성능은 우수했지만 사실적 지식 탐침(factual probes)에서는 무작위 추측에 가까운 점수를 기록하여, 모델이 도구를 잘 찾아도 그 의미를 제대로 이해하지 못할 수 있음을 시사했습니다.

이러한 지식-검색 괴리 현상은 LLM 기반 에이전트의 신뢰성과 효율성 측면에서 중요한 의미를 가집니다. 모델이 도구를 단순히 '검색'하는 것을 넘어 '이해'해야만 복잡한 작업을 정확하고 유연하게 수행할 수 있기 때문입니다. ToolSense는 개발자들이 LLM 에이전트의 도구 지식 상태를 보다 정확하게 진단하고, 실제 사용 환경에 적합한 모델을 개발하는 데 필수적인 도구가 될 것입니다. 앞으로 LLM 에이전트의 성능 향상을 위해서는 단순히 검색 정확도를 높이는 것을 넘어, 도구의 의미론적 이해를 심화하는 방향으로 연구와 개발이 이루어져야 할 것입니다.