기업 워크플로 자율 에이전트가 겪는 문제—장황한 도구 응답이 맥락 오버플로·낡은 상태 오류·높은 추론 비용을 유발—를 Microsoft Dynamics 365의 자동 경비 항목화 과제로 연구했다. 50개 호텔 경비 과제에서 GPT-5의 네 가지 구성(사용자 모델 없음, 전체 대화 이력, 최근 5개 도구 호출로 가지치기, 가지치기+자동 요약)을 평가했다. 사용자 모델 없는 베이스라인은 완전 항목화 8.0%에 그쳤고, 전체 맥락 유지는 71.0%로 올랐으나 148만 토큰·14.56시간을 소모했다. 최근 5개로 가지치기하면 79.0%에 토큰 53.5만·5.39시간으로 줄었고, 요약을 더하자 91.6% 완전 항목화·99.64% 금액 항목화로 최고 성능을 5.79시간에 달성했다. Claude Sonnet 4.5 교차 검증도 일관됐다.
- •장황한 도구 응답이 유 av발하는 맥락 오버플로·비용 문제를 경비 항목화 과제로 연구
- •사용자 모델 없는 베이스라인은 완전 항목화 8.0%에 불과
- •전체 맥락 유지는 71.0%로 오르지만 148만 토큰·14.56시간 소모
- •최근 5개 가지치기+요약이 91.6% 완전 항목화·99.64% 금액 항목화로 최고 성능
- •최근 도구 상호작용 선별 유지+간결 요약이 신뢰성과 효율을 동시 개선
Less Context, Better Agents: Efficient Context Engineering for Long-Horizon Tool-Using LLM Agents
- 1.긴 도구 응답이 컨텍스트 오버플로·상태오류·비용을 유발하는 문제 연구
- 2.Dynamics 365 경비 세분화 50과제에서 GPT-5 4가지 구성 평가
- 3.최근 5개 도구호출로 프루닝 시 완성도 79%·토큰 53만개로 감소
- 4.프루닝+요약이 완성도 91.6%·금액세분화 99.64%로 최고 성능
왜 중요한가?
전체 대화 이력 보존(완성도 71%, 148만 토큰)보다 최근 도구 상호작용만 선택 보존하고 압축 요약하는 편이 완성도와 효율을 동시에 높임을 보여, 기업용 에이전트 도구 사용 워크플로의 실용적 컨텍스트 설계 지침을 제시한다.
본문 미리보기
arXiv:2606.10209v1 Announce Type: new Abstract: Large language models deployed as autonomous agents for enterprise workflows face a key challenge: verbose tool responses from enterprise systems can cause context overflow, stale-state errors, and high inference cost. We study this problem in automated expense itemization in Microsoft Dynamics 365 Finance and Operations using Model Context Protocol tools. We evaluate four GPT-5 configurations on a 50-task hotel expense benchmark: no user model, f
전체 내용이 궁금하다면?
원문을 직접 읽어보세요