ToolSense는 대규모 도구 카탈로그를 다루는 LLM 에이전트의 도구 검색 능력을 진단하는 오픈소스 프레임워크다. 각 도구를 가상 토큰으로 인코딩하는 파라메트릭 도구 검색은 표준 ToolBench 벤치마크에서 강한 성능을 내지만, 이 벤치마크가 장황하고 완전히 명시된 질의와 제약된 디코딩을 쓰기에 모델이 도구를 실제로 이해하는지는 드러내지 못한다. ToolSense는 임의의 카탈로그를 입력받아 모호성 3단계 현실적 검색 벤치마크(RRB), MCQ·QA 탐침 벤치마크를 자동 생성한다. 약 4.7만 개 도구의 ToolBench에 적용해 5개 파라메트릭 학습 구성을 평가한 결과, RRB 질의에서 여러 구성이 완전 명시 벤치마크 대비 50~64%p 붕괴해 임베딩 베이스라인보다 낮아졌고, 일부는 강한 검색 성능에도 사실 탐침에서 무작위 수준에 그쳐 '지식-검색 괴리'를 드러냈다.
- •임의 도구 카탈로그에서 세 가지 진단 벤치마크를 자동 생성하는 오픈소스 ToolSense 제안
- •파라메트릭 도구 검색이 표준 ToolBench에서는 강하나 실제 이해도는 검증 못 함
- •약 4.7만 개 도구·5개 학습 구성 평가
- •현실적 검색 질의(RRB)에서 50~64%p 성능 붕괴로 임베딩 베이스라인보다 저하
- •강한 검색 성능에도 사실 탐침은 무작위 수준인 '지식-검색 괴리' 확인
ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledge in LLMs
- 1.도구 카탈로그에서 3종 벤치마크를 자동 생성하는 진단 프레임워크 ToolSense 공개
- 2.ToolBench 약 4.7만 도구에 적용해 파라메트릭 도구검색 5개 설정 평가
- 3.현실적 모호 질의(RRB)서 정확도 50~64%p 급락, 임베딩 베이스라인 이하
- 4.검색 성능 강해도 사실 프로브엔 무작위 수준, 지식-검색 괴리 확인
왜 중요한가?
장황한 완전 명세 질의에 맞춘 기존 도구검색 벤치마크가 모델의 실제 도구 이해를 드러내지 못함을 폭로해, 에이전트 도구검색 평가에 질의 모호성·사실성 진단이 필요함을 입증한다.
본문 미리보기
arXiv:2606.12451v1 Announce Type: new Abstract: Large language models deployed as agents over large tool catalogs face a critical tool-retrieval bottleneck. As embedding-based retrieval approaches rely on compact encoders that may under-capture specialized tool semantics, parametric tool retrieval addresses this by encoding each tool as a virtual token appended to the LLM vocabulary, fine-tuned in two stages (memorization then retrieval SFT) to use the LLM as a retriever, achieving strong perfo
전체 내용이 궁금하다면?
원문을 직접 읽어보세요