Artificial Analysis와 IBM이 에이전틱 엔터프라이즈 IT 작업을 평가하는 최초의 벤치마크 ITBench-AA를 출시했다. Kubernetes 인시던트 대응(SRE) 과제에서 최상위 모델인 Claude Opus 4.7도 47%에 그쳐 모든 프런티어 모델이 50% 미만을 기록했으며, 이는 현존 에이전틱 벤치마크 중 포화도가 가장 낮은 수준이다. 턴 수가 많다고 성능이 높아지지 않으며, Gemini 3.1 Pro Preview는 평균 83턴에 30%인 반면 Gemma 4 31B는 58턴에 37%를 달성했다. 오픈 웨이트 모델이 비용 효율 면에서 두각을 나타내, Gemma 4 31B는 작업당 $0.14로 $2.23이 드는 Gemini 3.1 Pro Preview를 성능과 비용 양면에서 앞섰다. ITBench-AA는 SRE를 시작으로 FinOps와 CISO 영역으로 확장될 예정이다.
- •ITBench-AA는 Artificial Analysis와 IBM이 공동 개발한 에이전틱 엔터프라이즈 IT 최초 벤치마크로, Kubernetes 인시던트 스냅샷에서 근본 원인 엔터티를 식별하는 59개 SRE 과제(공개 40개 + 비공개 19개)를 포함한다.
- •모든 프런티어 모델이 50% 미만 — Claude Opus 4.7 47%, GPT-5.5 46%, Qwen3.7 Max 42% 순으로, 현존 에이전틱 벤치마크 중 포화도가 가장 낮아 난이도가 매우 높다.
- •턴 수가 길수록 역효과: Gemini 3.1 Pro Preview는 83턴 평균에도 30%에 그쳤고 Gemma 4 31B는 58턴으로 37% 달성. 과도한 탐색이 위양성(false positive)을 늘려 정밀도를 낮추는 구조다.
- •오픈 웨이트 GLM-5.1(40%, $1.23/task)과 Gemma 4 31B(37%, $0.14/task)가 유사 성능의 클로즈드 모델 대비 비용 효율이 월등히 높아 비용 프런티어를 형성했다.
- •평가 하네스 Stirrup을 모든 모델에 고정 적용해 공정한 비교를 보장하며, 현재 SRE에서 시작해 FinOps·CISO 작업으로 순차 확장 예정이다.
ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM

- 1.Artificial Analysis·IBM 공동 출시 ITBench-AA, 선두 Claude Opus 4.7도 SRE 47% 달성에 그쳐
- 2.쿠버네티스 장애 진단 59개 태스크 구성, 전 최신 모델 50% 미만 — 가장 미포화된 에이전트 벤치마크
- 3.롱턴 역효과: Gemini 3.1 Pro 83턴·30% vs Gemma 4 31B 58턴·37%, 과잉 조사로 정밀도 감소
- 4.오픈 웨이트 Gemma 4 31B($0.14/태스크)가 Gemini 3.1 Pro($2.23)보다 성능·비용 모두 우위
왜 중요한가?
엔터프라이즈 IT 운영 자동화를 겨냥한 최초의 에이전트 SRE 벤치마크로, 최고 모델도 47%에 불과하다는 결과는 실제 인프라 자동화까지 상당한 기술 간극이 남아 있음을 보여준다. 오픈 웨이트 모델이 비용 대비 효율에서 클로즈드 모델에 경쟁력 있음도 확인됐다.
🏷️ 언급 프로젝트
전체 내용이 궁금하다면?
원문을 직접 읽어보세요