에이전틱 도구 호출 환경 간 일반화 문제를 해결하기 위해, 구조화된 분해·적응형 도구 오케스트레이션·중간 검증을 갖춘 경량 기호 추론 스캐폴드 MAVEN(Modular Agentic Verification and Execution Network)을 제안했다. BFCL v3, TauBench, AceBench 등 기존 벤치마크와 다단계 수학·물리 추론 스트레스 테스트 MAVEN-Bench에서 평가했으며, MAVEN은 GPT-OSS-120b 베이스 모델의 정확도를 추가 학습 없이 48%에서 71%로 향상시켰다. 오픈 웨이트 백본 기준 프런티어 독점 모델 대비 약 1/10 비용으로 경쟁력 있는 성능을 달성해, 검증 중심 경량 스캐폴드의 복합 추론 강화 가능성을 입증했다.
- •MAVEN은 추가 학습 없이 GPT-OSS-120b 베이스 모델의 MAVEN-Bench 정확도를 48%에서 71%로 향상시켰다.
- •오픈 웨이트 백본 기준 프런티어 독점 모델 대비 약 1/10 비용으로 경쟁력 있는 성능을 달성해 비용 효율적 대안임을 보였다.
- •구조화된 분해·적응형 도구 오케스트레이션·중간 검증으로 구성된 경량 기호 추론 스캐폴드로 복합 추론과 도구 호출 일반화를 동시에 강화한다.
MAVEN: Improving Generalization in Agentic Tool Calling
- 1.멀티스텝 도구 호출 환경에서 일반화 향상을 위한 경량 기호 추론 스케폴드 MAVEN 제안
- 2.MAVEN-Bench에서 GPT-OSS-120b 기반 모델 정확도 48%→71%로 향상, 추가 훈련 불필요
- 3.프맰티어 독점 모델과 경쟁하면서 오픈웨이트 백본으로 비용 약 1/10 수준 달성
왜 중요한가?
추론·도구 호출 구성에서 경량 검증 중심 스캐폴드만으로 고가 독점 모델에 필적하는 성능을 보여, 실제 에이전트 배포 비용을 크게 낮출 수 있음을 시사한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.30738v1 Announce Type: new Abstract: Generalization across agentic tool-calling environments remains a central challenge for reliable agentic reasoning systems. Although large language models achieve strong results on individual benchmarks, their ability to compose reasoning strategies, preserve intermediate states, and coordinate tools across domains remains underexplored. We present MAVEN (Modular Agentic Verification and Execution Network), a lightweight symbolic reasoning scaffol
전체 내용이 궁금하다면?
원문을 직접 읽어보세요