장기 에이전틱 워크플로에서 창발적 위임(delegation)을 측정하기 위한 벤치마크 기질인 DecisionBench를 소개한다. 11개 모델, 7개 벤더 패밀리로 구성된 피어 모델 풀에서 23,375개 태스크 인스턴스를 활용해 5가지 조건 참조 스윕을 수행했다. 품질 지표만으로는 오케스트레이션 신호를 포착할 수 없으며, 라우팅 충실도가 조건마다 크게 달라지고, 완벽한 위임 대비 현재 성능에는 15~31%p의 미실현 여지가 존재함을 밝혔다.
- •장기 에이전틱 워크플로에서 창발적 위임을 평가하는 벤치마크 기질 DecisionBench 발표
- •품질 지표만으로는 조건 간 통계적 차이가 없어 오케스트레이션 신호를 놓칠 수 있음 확인
- •라우팅 충실도-at-1이 조건별로 7.5~29.5%로 크게 다르며 전달 채널이 주된 변수
- •완벽한 위임 대비 현재 성능은 모든 태스크 스위트에서 15~31%p 미달해 개선 여지 큼
DecisionBench: A Benchmark for Emergent Delegation in Long-Horizon Agentic Workflows
- 1.DecisionBench: 에이전트 위임 평가를 위한 밤치마크 기판 소개, 11개 모델·7개 밬더 풀 대상
- 2.23,375개 태스크 인스턴스 평가에서 라우팅 충실도 7.5~29.5%로 조건별 큰 차이
- 3.완벽한 위임 대비 15~31%p 개선 여지 확인, 데이터 전달 채널이 라우팅 충실도에 가장 큰 영향
왜 중요한가?
멀티 에이전트 오케스트레이션 품질 평가 지표를 다각화하고 현재 위임 능력의 한계와 개선 방향을 실증적으로 제시하는 벤치마크다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.19099v1 Announce Type: new Abstract: We introduce DecisionBench, a benchmark substrate for emergent delegation in long-horizon agentic workflows. The substrate fixes a task suite (GAIA, tau-bench, BFCL multi-turn), a peer-model pool (11 models, 7 vendor families), a delegation interface (call_model plus an optional read_profile channel), a deterministic skill-annotation layer, and a multi-axis metric suite covering quality, cost, latency, delegation rate, routing fidelity-at-k, vendo
전체 내용이 궁금하다면?
원문을 직접 읽어보세요