What Benchmarks Don't Measure: The Case for Evaluating Abstention Competence in Autonomous Agents
- 1.자율 에이전트 포기 능력 평가
- 2.기존 벤치마크 한계 지적
- 3.AI 안전성 및 신뢰도 향상
왜 중요한가?
자율 에이전트가 언제 작업을 중단해야 할지를 판단하는 능력은 AI 시스템의 안전성과 신뢰도를 높이는 데 매우 중요하며, 이는 실제 환경에서의 AI 오용을 방지할 수 있습니다.
본문 미리보기
arXiv:2606.02965v1 Announce Type: new Abstract: Benchmarks for autonomous agents measure whether agents complete tasks, yet this framing is systematically blind to whether an agent should have proceeded at all. Agents trained under human-feedback objectives develop a structural tendency to proceed even when they lack the inputs, evidence, or authorization to act safely, a disposition we term compliance bias, because both the reward signal and the benchmark scoring regime treat proceeding as the
전체 내용이 궁금하다면?
원문을 직접 읽어보세요