AI 에이전트 성능이 모델만의 문제가 아니라 '하니스'와의 시스템 문제임을 짚으며, 모델 의도와 하니스 실행 사이의 불일치를 '의도-실행 격차'로 정식화했다. 이 격차 최소화가 도구·실행 루프 설계만큼 중요하다고 주장하고, 여러 모델 계열(Claude·Gemini·GPT·Grok·Qwen)에 일반화되는 패턴을 찾는 단순·맞춤형 하니스 SSA(Simple Strands Agent)를 제시했다. SSA는 SWE-Pro·SWE-Verified·Terminal-Bench-2에서 각 제공자가 보고한 pass@1을 재현·개선했고, 138k개 궤적 분석을 통해 편집 빈도·테스트 활동·단계 전이 같은 세밀한 지표로 모델별 문제 해결 행동 차이를 드러냈다.
- •에이전트 성능을 모델-하니스 정렬의 시스템 문제로 보고 '의도-실행 격차'를 정식화
- •여러 모델 계열에 일반화되는 단순·맞춤형 하니스 SSA(Simple Strands Agent) 제시
- •SWE-Pro·SWE-Verified·Terminal-Bench-2에서 제공자 보고 pass@1 재현·개선
- •138k개 궤적을 코드 상태공간으로 표현, 편집 빈도·테스트·단계 전이로 모델별 행동 차이 분석
Dissecting model behavior through agent trajectories
- 1.모델 의도와 하니스 실행 간 '의도-실행 갭'을 정식화하고 최소화 중요성 제기
- 2.범용 하니스 SSA로 SWE-Pro·SWE-Verified·Terminal-Bench-2의 pass@1 재현·개선
- 3.13.8만 개 트라젝토리 분석으로 pass@1 너머 모델별 문제해결 행동 차이 관찰
- 4.편집 빈도·테스트 활동·국면 전환 등 세밀 지표로 모델별 노력 배분 차이 규명
왜 중요한가?
모델 성능이 하니스를 통해 발현되므로, 모델 의도와 하니스 동작의 정합이 도구·실행 루프 설계만큼 중요하며 에이전트 성능 향상의 핵심 요소임을 실증했다.
🏷️ 언급 프로젝트
AI 에이전트의 궤적 분석을 통해 모델 동작을 심층적으로 이해하는 접근 방식은 국내 AI 시스템의 안정성과 신뢰도를 높이는 데 필수적입니다. 복잡한 AI 서비스에서 예상치 못한 오류를 줄이고 최적의 성능을 끌어내는 데 기여하여, 산업 전반의 AI 도입을 가속화할 것입니다.
본문 미리보기
arXiv:2606.17454v1 Announce Type: new Abstract: AI agent performance is not just a modeling problem, it is fundamentally a systems problem. The advanced capabilities of models are realized through agent harnesses. Therefore, a gap between model assumptions and harness behavior can easily prevent the model's full capabilities from translating into agent performance. We formalize this as the `intent-execution' gap: the mismatch between what the model intends and what the harness executes, and vic
전체 내용이 궁금하다면?
원문을 직접 읽어보세요