🇰🇷 한국어 요약by Claude · 2026. 6. 18.
Hugging Face가 코딩 에이전트가 라이브러리를 얼마나 효율적으로 다루는지를 정답 여부가 아니라 과정(턴 수, 토큰, 시간, 에러)으로 측정하는 벤치마크 하니스 agent-eval을 공개했다. transformers를 사례로 bare·clone·skill 세 가지 tier에서 pi 코딩 에이전트로 모델×리비전×과제를 HF Jobs에 병렬 실행해 비교했다. CLI와 Skill을 추가한 커밋은 대형 모델에는 도움이 돼 CLI를 호출하며 시간을 줄였지만(clone에서는 새 코드를 읽느라 입력 토큰이 4k→6.4k로 증가), 소형 모델에는 오히려 해로웠다. Qwen3-4B는 clone에서 토큰이 2.4k→23k로 폭증하고도 정확도 이득이 없었고, Qwen3-14B는 CLI를 호출형 도구로 오인해 classify-sentiment 정확도가 100%에서 0%로 붕괴했다. 결국 에이전트용 API는 모델 크기별로 평가해야 하며, 한 변화가 큰 모델엔 이득이지만 작은 모델엔 모호함을 더할 수 있다는 교훈을 준다.
- •agent-eval은 정답 일치 여부만 보는 기존 벤치마크와 달리 에이전트의 작업량(턴·토큰·시간·에러)과 실행 경로를 측정한다.
- •transformers를 대상으로 bare·clone·skill 세 tier에서 pi 에이전트로 모델×리비전×과제를 HF Jobs에 병렬 실행해 동일 하드웨어에서 비교했다.
- •CLI+Skill 커밋은 대형 모델의 작업 시간을 줄였지만, clone tier에서는 새 CLI 코드를 읽느라 입력 토큰이 4k에서 6.4k로 늘어나는 트레이드오프가 있다.
- •Qwen3-4B는 clone에서 중앙값 신규 토큰이 2.4k에서 23k로 폭증했지만 정확도 개선은 없었다.
- •Qwen3-14B는 Skill의 CLI를 호출형 도구로 오인해 classify-sentiment 정확도가 100%에서 0%로 붕괴했고, 이는 에이전트용 API를 모델 크기별로 평가해야 함을 보여준다.
AI2026년 6월 18일AI 점수: 93%
Is it agentic enough? Benchmarking open models on your own tooling
출처:HuggingFace Blog
전체 내용이 궁금하다면?
원문을 직접 읽어보세요
공유:
#AI 에이전트#오픈모델#벤치마크#에이전틱

