OSGuard는 양호한(benign) 사용자 지시 아래에서도 컴퓨터 사용 에이전트가 안전하지 않은 지름길로 목표에 도달하는 실패를 평가하는 이중 입도(dual-granularity) 벤치마크다. 행동 수준 벤치마크는 제안된 행동을 현재 인터페이스 상태와 원 지시에 비춰 허용·무관·위험으로 라벨링하고, 위험 증강 실행 스위트는 원래 과제는 달성 가능하되 파괴적 덮어쓰기 같은 잠재 위험을 심은 OSWorld 파생 변형을 담는다. 각 변형은 과제 성공 기준에 상태 기반 안전 불변식을 더한 평가자와 짝지어, 안전한 완료와 목표만 만족한 위험한 완료를 구분한다. 실험 결과 멀티모달 가드레일은 개별 행동 판단에는 강하지만 실행 수준에서는 국소 감시와 종단 간 안전 사이의 격차가 드러난다.
- •양호한 지시 하에서도 안전하지 않은 지름길 실패를 잡는 이중 입도 안전 벤치마크 OSGuard
- •행동 수준: 제안 행동을 허용·무관·위험으로 맥락 기반 라벨링
- •실행 수준: 잠재 위험을 심은 OSWorld 파생 변형 + 상태 기반 안전 불변식 평가자
- •멀티모달 가드레일은 개별 행동 판단엔 강하나 종단 간 실행 안전엔 격차 존재
- •위험 인식과 전체 과제 안전 개선을 분리 진단하는 설계
OSGuard: A Benchmark for Safety in Computer-Use Agents
본문 미리보기
arXiv:2606.15034v1 Announce Type: new Abstract: Computer-use agents are increasingly evaluated by whether they complete realistic desktop and web tasks. However, task success alone can miss failures in which an agent reaches the nominal goal through an unsafe shortcut. We introduce OSGuard, a dual-granularity benchmark suite for evaluating safety in computer-use agents under benign, unchanged user instructions. OSGuard contains an action-level benchmark for local guardrail decisions and a risk-
전체 내용이 궁금하다면?
원문을 직접 읽어보세요