Evoflux는 소형 언어모델 기반 도구 에이전트가 MCP 방식 도구 사용에서 자주 실패하는 문제를, 실행 가능한 도구 워크플로의 '수리(repair)'로 보는 추론 시점 진화 탐색 기법이다. 소형 플래너는 그럴듯한 워크플로 그래프를 만들지만 도구 해석·파라미터 검증·의존성 추적·실행 단계에서 무너지며, 수백 개 교사 트레이스로는 변화하는 도구 카탈로그에서의 복구 행동을 가르치기 어렵다. Evoflux는 타입이 지정된 워크플로 그래프를 구조적 편집, 실행 피드백, 적응적 강도, 메타 유도 재설계, 다양성 가지치기로 진화시킨다. 250개 도구와 실제 MCP 서버를 포함한 MCP-Bench에서 여러 소형 플래너의 실행 가능성을 약 3%에서 17~24%로 끌어올렸다. 반면 같은 데이터로 한 SFT·SFT+DPO는 제로샷 이하로 붕괴하기도 했고, ReAct는 더 높은 정점에 도달하나 분산과 토큰 비용이 컸다.
- •소형 모델의 도구 사용을 실행 가능한 워크플로 수리로 보는 추론 시점 진화 탐색 Evoflux
- •구조적 편집·실행 피드백·메타 유도 재설계로 타입 지정 워크플로 그래프 진화
- •MCP-Bench에서 실행 가능성을 약 3%에서 17~24%로 향상
- •같은 데이터 기반 SFT·SFT+DPO는 제로샷 이하로 붕괴하기도 함
- •교사 트레이스가 희소한 조건에서 실행 기반 탐색이 더 안정적임을 입증
Evoflux: Inference-Time Evolution of Executable Tool Workflows for Compact Agents
- 1.소형 LM의 도구 사용을 워크플로 복구로 보는 추론시점 진화탐색 Evoflux 제안
- 2.타입드 워크플로 그래프를 구조적 편집·실행 피드백으로 진화
- 3.MCP-Bench 250개 도구에서 실행 가능성 3%→17~24%로 향상
- 4.동일 데이터의 SFT·SFT+DPO는 제로샷 이하로 붕괴, 탐색이 더 안정적
왜 중요한가?
교사 트레이스가 부족한 환경에서 소형 모델의 실제 MCP 도구 실행 성공률을 크게 끌어올려, 비용·지연·배포 위험이 낮은 도구 에이전트의 현실적 활용 가능성을 높인다.
🏷️ 언급 프로젝트
국내 기업들이 비용 효율적인 '경량 언어 모델(Compact LLM)' 기반의 툴 에이전트 개발에 주목하는 가운데, 'Evoflux'는 추론 시점에 실행 가능한 도구 워크플로우를 진화시키는 방법을 제시합니다. 이는 경량 모델의 성능과 유연성을 극대화하여 다양한 산업 분야에서의 AI 에이전트 적용 가능성을 확장할 중요한 기술이 될 것입니다.
본문 미리보기
arXiv:2606.12674v1 Announce Type: new Abstract: Compact language models (LMs) reduce cost, latency, and deployment risk for tool agents. Yet MCP-style tool use requires more than isolated function calling: an agent must discover tools from live catalogs, satisfy schemas, preserve dependencies across intermediate outputs, and ground final responses in executed evidence. Small planners often generate plausible workflow graphs that fail under tool resolution, parameter validation, dependency track
전체 내용이 궁금하다면?
원문을 직접 읽어보세요