에이전트 벤치마크가 빠르게 늘고 있으나 단일 벤치마크는 배포가 드러내는 차원 중 네다섯 개밖에 다루지 못한다. 이 논문은 MCP 기반 산업용 에이전트 벤치마크에 대한 역대 최대 규모의 공동 심층 분석을 집약하는데, 새 자산군(멀티모달 시각 확장 포함)·대안 오케스트레이션·검색 전략·추론 모드·인프라 최적화·평가 방법론을 다룬 14개 병렬 구현 연구다. 이를 기존 7개 에이전트 벤치마크와 통합해, 총점 리더보드가 배포 에이전트 평가를 체계적으로 과소명세한다고 주장한다. 총점 기반 순위는 분포 밖(OOD) 환경으로 이전되지 않으며, 최근 공개→비공개 대회 회고가 이 순위 불안정성을 실증한다. 저자들은 표본 내 평균 대신 표본 내·외 순위의 상관인 '예측 타당도'로 구성을 순위화할 것을 제안하고, HELM 등이 뭉뚱그린 배포 관련 차원을 드러내는 12단계 측정 장치와 명시적 임계값을 가진 세 가지 반증 가능 OOD 기준을 제시한다.
- •MCP 기반 산업 에이전트 벤치마크에 대한 14개 병렬 구현 연구를 집약
- •총점 리더보드 순위가 OOD 환경으로 이전되지 않는 순위 불안정성을 실증
- •표본 내 평균 대신 표본 내·외 순위 상관인 '예측 타당도'로 순위화 제안
- •12단계 측정 장치와 임계값 명시된 세 가지 반증 가능 OOD 기준 제시
Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents
본문 미리보기
arXiv:2606.19704v1 Announce Type: new Abstract: Agent benchmarks are growing fast, but no single benchmark touches more than four or five of the dimensions that deployment exposes. This paper aggregates the largest coordinated deep-dive of one MCP-based industrial-agent benchmark to date: fourteen parallel implementation studies covering new asset classes (including a multi-modal visual extension), alternative orchestrations, retrieval strategies, reasoning modes, infrastructure optimizations,
전체 내용이 궁금하다면?
원문을 직접 읽어보세요