🇰🇷 한국어 요약by Claude · 2026. 5. 27.

Artificial Analysis와 IBM이 에이전틱 엔터프라이즈 IT 작업을 평가하는 최초의 벤치마크 ITBench-AA를 출시했다. Kubernetes 인시던트 대응(SRE) 과제에서 최상위 모델인 Claude Opus 4.7도 47%에 그쳐 모든 프런티어 모델이 50% 미만을 기록했으며, 이는 현존 에이전틱 벤치마크 중 포화도가 가장 낮은 수준이다. 턴 수가 많다고 성능이 높아지지 않으며, Gemini 3.1 Pro Preview는 평균 83턴에 30%인 반면 Gemma 4 31B는 58턴에 37%를 달성했다. 오픈 웨이트 모델이 비용 효율 면에서 두각을 나타내, Gemma 4 31B는 작업당 $0.14로 $2.23이 드는 Gemini 3.1 Pro Preview를 성능과 비용 양면에서 앞섰다. ITBench-AA는 SRE를 시작으로 FinOps와 CISO 영역으로 확장될 예정이다.

•ITBench-AA는 Artificial Analysis와 IBM이 공동 개발한 에이전틱 엔터프라이즈 IT 최초 벤치마크로, Kubernetes 인시던트 스냅샷에서 근본 원인 엔터티를 식별하는 59개 SRE 과제(공개 40개 + 비공개 19개)를 포함한다.
•모든 프런티어 모델이 50% 미만 — Claude Opus 4.7 47%, GPT-5.5 46%, Qwen3.7 Max 42% 순으로, 현존 에이전틱 벤치마크 중 포화도가 가장 낮아 난이도가 매우 높다.
•턴 수가 길수록 역효과: Gemini 3.1 Pro Preview는 83턴 평균에도 30%에 그쳤고 Gemma 4 31B는 58턴으로 37% 달성. 과도한 탐색이 위양성(false positive)을 늘려 정밀도를 낮추는 구조다.
•오픈 웨이트 GLM-5.1(40%, $1.23/task)과 Gemma 4 31B(37%, $0.14/task)가 유사 성능의 클로즈드 모델 대비 비용 효율이 월등히 높아 비용 프런티어를 형성했다.
•평가 하네스 Stirrup을 모든 모델에 고정 적용해 공정한 비교를 보장하며, 현재 SRE에서 시작해 FinOps·CISO 작업으로 순차 확장 예정이다.

AI2026년 5월 27일AI 점수: 95%

ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM

출처:HuggingFace Blog

✨ AI 인사이트

🧑‍💻 개발자💼 투자자

1.Artificial Analysis·IBM 공동 출시 ITBench-AA, 선두 Claude Opus 4.7도 SRE 47% 달성에 그쳐
2.쿠버네티스 장애 진단 59개 태스크 구성, 전 최신 모델 50% 미만 — 가장 미포화된 에이전트 벤치마크
3.롱턴 역효과: Gemini 3.1 Pro 83턴·30% vs Gemma 4 31B 58턴·37%, 과잉 조사로 정밀도 감소
4.오픈 웨이트 Gemma 4 31B($0.14/태스크)가 Gemini 3.1 Pro($2.23)보다 성능·비용 모두 우위

💡

왜 중요한가?

엔터프라이즈 IT 운영 자동화를 겨냥한 최초의 에이전트 SRE 벤치마크로, 최고 모델도 47%에 불과하다는 결과는 실제 인프라 자동화까지 상당한 기술 간극이 남아 있음을 보여준다. 오픈 웨이트 모델이 비용 대비 효율에서 클로즈드 모델에 경쟁력 있음도 확인됐다.

🏷️ 언급 프로젝트

ITBench-AA Claude Opus 4.7

📝 AIChainDay 편집노트왜 이 기사를 골랐나

기업 IT 업무를 위한 최초의 벤치마크인 'ITBench-AA'에서 최신 AI 모델들이 50% 미만의 점수를 기록했다는 사실은 국내 기업들의 AI 기반 IT 자동화(AIOps) 도입에 중요한 시사점을 줍니다. 이는 현재의 '최첨단' AI 모델들이 실제 기업 환경의 복잡한 IT 태스크를 해결하는 데 아직 한계가 있음을 보여주며, 한국 기업들은 신중한 AI 도입 전략과 함께 해당 분야 특화 AI 에이전트 개발에 더욱 집중해야 함을 시사합니다.

전체 내용이 궁금하다면?

원문을 직접 읽어보세요

원문 보기

#AI 벤치마크#에이전틱 AI#엔터프라이즈 IT#프론티어 모델#IBM

ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM

관련 글

Advancing next-gen AI with materials science innovation

PlanFlip: Attacking Multi-Agent LLM Systems via Planning-Phase Prompt Injection

Democratizing AI with Small Language Models: Structured Benchmarking and Parameter-Efficient Fine-Tuning for Local Deployment

Generative Ontology Induction: Domain-Agnostic Schema Discovery from Document Corpora Using Large Language Models