MAVEN: Improving Generalization in Agentic Tool Calling | AIChainDay

🇰🇷 한국어 요약by Claude · 2026. 6. 1.

에이전틱 도구 호출 환경 간 일반화 문제를 해결하기 위해, 구조화된 분해·적응형 도구 오케스트레이션·중간 검증을 갖춘 경량 기호 추론 스캐폴드 MAVEN(Modular Agentic Verification and Execution Network)을 제안했다. BFCL v3, TauBench, AceBench 등 기존 벤치마크와 다단계 수학·물리 추론 스트레스 테스트 MAVEN-Bench에서 평가했으며, MAVEN은 GPT-OSS-120b 베이스 모델의 정확도를 추가 학습 없이 48%에서 71%로 향상시켰다. 오픈 웨이트 백본 기준 프런티어 독점 모델 대비 약 1/10 비용으로 경쟁력 있는 성능을 달성해, 검증 중심 경량 스캐폴드의 복합 추론 강화 가능성을 입증했다.

•MAVEN은 추가 학습 없이 GPT-OSS-120b 베이스 모델의 MAVEN-Bench 정확도를 48%에서 71%로 향상시켰다.
•오픈 웨이트 백본 기준 프런티어 독점 모델 대비 약 1/10 비용으로 경쟁력 있는 성능을 달성해 비용 효율적 대안임을 보였다.
•구조화된 분해·적응형 도구 오케스트레이션·중간 검증으로 구성된 경량 기호 추론 스캐폴드로 복합 추론과 도구 호출 일반화를 동시에 강화한다.

AI2026년 6월 1일AI 점수: 93%

MAVEN: Improving Generalization in Agentic Tool Calling

출처:arXiv cs.AI

✨ AI 인사이트

🧑‍💻 개발자

1.멀티스텝 도구 호출 환경에서 일반화 향상을 위한 경량 기호 추론 스케폴드 MAVEN 제안
2.MAVEN-Bench에서 GPT-OSS-120b 기반 모델 정확도 48%→71%로 향상, 추가 훈련 불필요
3.프맰티어 독점 모델과 경쟁하면서 오픈웨이트 백본으로 비용 약 1/10 수준 달성

💡

왜 중요한가?

추론·도구 호출 구성에서 경량 검증 중심 스캐폴드만으로 고가 독점 모델에 필적하는 성능을 보여, 실제 에이전트 배포 비용을 크게 낮출 수 있음을 시사한다.

🏷️ 언급 프로젝트

MAVEN

본문 미리보기

arXiv:2605.30738v1 Announce Type: new Abstract: Generalization across agentic tool-calling environments remains a central challenge for reliable agentic reasoning systems. Although large language models achieve strong results on individual benchmarks, their ability to compose reasoning strategies, preserve intermediate states, and coordinate tools across domains remains underexplored. We present MAVEN (Modular Agentic Verification and Execution Network), a lightweight symbolic reasoning scaffol

전체 내용이 궁금하다면?

원문을 직접 읽어보세요

원문 보기

#AI에이전트#도구호출#일반화#기호추론#LLM

8시간 전

Thousand Token Wood: shipping a multi-agent economy on a 3B model

🏢공식HuggingFace Blog

원문

1일 전

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

arXiv:2606. 05384v1 Announce Type: new Abstract: LLM-as-judge evaluation is widely used in benchmarking pipelines, where model outputs are compared and ranked using automated evaluators. These pipelines typically assume that judgments are stable properties of fixed inputs. We show that this assumpti

📰미디어arXiv cs.AI

원문

MAVEN: Improving Generalization in Agentic Tool Calling

본문 미리보기

관련 글

Thousand Token Wood: shipping a multi-agent economy on a 3B model

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

An interpretable and trustworthy AI framework for large-scale longitudinal structure-pain association studies using data from the Osteoarthritis Initiative (OAI)

SentinelBench: A Benchmark for Long-Running Monitoring Agents