JobBench는 AI 에이전트를 '대체'가 아닌 '위임' 관점에서 평가하는 벤치마크로, 전문가들이 위임 우선순위로 꼽은 업무 130개를 35개 직종에 걸쳐 구성했다. 각 태스크는 실제 업무 환경을 모사한 이기종 파일 워크스페이스로 제공되며, 태스크당 평균 35.6개의 이진 채점 기준으로 출력을 평가한다. 36개 모델을 평가한 결과 가장 강력한 모델인 Claude Opus 4.7(Claude Code 기반)도 정확도 45.9%에 그쳐, 현 AI 에이전트의 실무 위임 작업 한계를 드러냈다. 이 연구는 경제적 가치 중심 평가에서 벗어나 인간의 실제 필요 중심으로 AI 에이전트 연구 방향을 전환할 것을 촉구한다.
- •130개 에이전트 태스크, 35개 직종 구성. 경제 가치 기준이 아닌 전문가가 '위임하고 싶다'고 꼽은 업무를 기반으로 설계.
- •태스크당 평균 35.6개 이진 채점 기준을 사용해 사실에 근거한 체계적 평가 실시.
- •최강 모델 Claude Opus 4.7(Claude Code)도 정확도 45.9%에 그쳐 현 AI 에이전트의 실무 위임 한계를 수치로 입증.
- •대체(replacement) 서사에서 인간 역량 강화(empowerment) 서사로 AI 에이전트 연구의 목표 전환을 제안.
JobBench: Aligning Agent Work With Human Will
- 1.JobBench: 전문가가 위임 우선으로 꾽은 업무 워크플로우 기반 AI 에이전트 평가 벤치마크 공개
- 2.35개 직종 130개 에이전트 태스크, 과제당 평균 35.6개 이진 채점 기준 적용
- 3.최고 성능 Claude Opus 4.7(Claude Code)이 45.9%에 그쳐 현 에이전트 한계 실증
- 4.AI를 인력 대체가 아닌 역량 강화 도구로 재정의하는 평가 패러다임 제시
왜 중요한가?
GDP 대체 프레임이 아닌 실제 전문가 위임 니즈 기준으로 에이전트를 평가해, 더 현실적이고 인간 중심적인 에이전트 개발 방향을 제시한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.26329v1 Announce Type: new Abstract: Current benchmarks for occupational AI agents are scoped primarily by economic values, telling a replacement story. We introduce JobBench, which evaluates AI agents on the workflows that experts identify as high-priority for delegation, empowering humans based on their needs instead of replacing them with GDP value. JobBench covers 130 agentic tasks across 35 occupations. Each task is packaged as a workspace of heterogeneous reference files, requi
전체 내용이 궁금하다면?
원문을 직접 읽어보세요