Dissecting model behavior through agent trajectories | AIChainDay

🇰🇷 한국어 요약by Claude · 2026. 6. 17.

AI 에이전트 성능이 모델만의 문제가 아니라 '하니스'와의 시스템 문제임을 짚으며, 모델 의도와 하니스 실행 사이의 불일치를 '의도-실행 격차'로 정식화했다. 이 격차 최소화가 도구·실행 루프 설계만큼 중요하다고 주장하고, 여러 모델 계열(Claude·Gemini·GPT·Grok·Qwen)에 일반화되는 패턴을 찾는 단순·맞춤형 하니스 SSA(Simple Strands Agent)를 제시했다. SSA는 SWE-Pro·SWE-Verified·Terminal-Bench-2에서 각 제공자가 보고한 pass@1을 재현·개선했고, 138k개 궤적 분석을 통해 편집 빈도·테스트 활동·단계 전이 같은 세밀한 지표로 모델별 문제 해결 행동 차이를 드러냈다.

•에이전트 성능을 모델-하니스 정렬의 시스템 문제로 보고 '의도-실행 격차'를 정식화
•여러 모델 계열에 일반화되는 단순·맞춤형 하니스 SSA(Simple Strands Agent) 제시
•SWE-Pro·SWE-Verified·Terminal-Bench-2에서 제공자 보고 pass@1 재현·개선
•138k개 궤적을 코드 상태공간으로 표현, 편집 빈도·테스트·단계 전이로 모델별 행동 차이 분석

AI2026년 6월 17일AI 점수: 90%

Dissecting model behavior through agent trajectories

출처:arXiv cs.AI

✨ AI 인사이트

🧑‍💻 개발자

1.모델 의도와 하니스 실행 간 '의도-실행 갭'을 정식화하고 최소화 중요성 제기
2.범용 하니스 SSA로 SWE-Pro·SWE-Verified·Terminal-Bench-2의 pass@1 재현·개선
3.13.8만 개 트라젝토리 분석으로 pass@1 너머 모델별 문제해결 행동 차이 관찰
4.편집 빈도·테스트 활동·국면 전환 등 세밀 지표로 모델별 노력 배분 차이 규명

💡

왜 중요한가?

모델 성능이 하니스를 통해 발현되므로, 모델 의도와 하니스 동작의 정합이 도구·실행 루프 설계만큼 중요하며 에이전트 성능 향상의 핵심 요소임을 실증했다.

🏷️ 언급 프로젝트

Simple Strands Agent SWE-Pro SWE-Verified

📝 AIChainDay 편집노트왜 이 기사를 골랐나

AI 에이전트의 궤적 분석을 통해 모델 동작을 심층적으로 이해하는 접근 방식은 국내 AI 시스템의 안정성과 신뢰도를 높이는 데 필수적입니다. 복잡한 AI 서비스에서 예상치 못한 오류를 줄이고 최적의 성능을 끌어내는 데 기여하여, 산업 전반의 AI 도입을 가속화할 것입니다.

본문 미리보기

arXiv:2606.17454v1 Announce Type: new Abstract: AI agent performance is not just a modeling problem, it is fundamentally a systems problem. The advanced capabilities of models are realized through agent harnesses. Therefore, a gap between model assumptions and harness behavior can easily prevent the model's full capabilities from translating into agent performance. We formalize this as the `intent-execution' gap: the mismatch between what the model intends and what the harness executes, and vic

전체 내용이 궁금하다면?

원문을 직접 읽어보세요

원문 보기