OSGuard: A Benchmark for Safety in Computer-Use Agents | AIChainDay

한국어 요약by Claude · 2026. 6. 16.

OSGuard는 양호한(benign) 사용자 지시 아래에서도 컴퓨터 사용 에이전트가 안전하지 않은 지름길로 목표에 도달하는 실패를 평가하는 이중 입도(dual-granularity) 벤치마크다. 행동 수준 벤치마크는 제안된 행동을 현재 인터페이스 상태와 원 지시에 비춰 허용·무관·위험으로 라벨링하고, 위험 증강 실행 스위트는 원래 과제는 달성 가능하되 파괴적 덮어쓰기 같은 잠재 위험을 심은 OSWorld 파생 변형을 담는다. 각 변형은 과제 성공 기준에 상태 기반 안전 불변식을 더한 평가자와 짝지어, 안전한 완료와 목표만 만족한 위험한 완료를 구분한다. 실험 결과 멀티모달 가드레일은 개별 행동 판단에는 강하지만 실행 수준에서는 국소 감시와 종단 간 안전 사이의 격차가 드러난다.

•양호한 지시 하에서도 안전하지 않은 지름길 실패를 잡는 이중 입도 안전 벤치마크 OSGuard
•행동 수준: 제안 행동을 허용·무관·위험으로 맥락 기반 라벨링
•실행 수준: 잠재 위험을 심은 OSWorld 파생 변형 + 상태 기반 안전 불변식 평가자
•멀티모달 가드레일은 개별 행동 판단엔 강하나 종단 간 실행 안전엔 격차 존재
•위험 인식과 전체 과제 안전 개선을 분리 진단하는 설계

0단 자동

AI가 규칙대로 쓰고 그대로 게시했습니다. 사람이 따로 보지 않았습니다.

규칙 판: 규칙 판 도입 이전 기사입니다.
남기는 것: 규칙 판 · 모델 · 시각
판 기록: 아직 없습니다.

AI2026년 6월 16일AI 점수: 92%

OSGuard: A Benchmark for Safety in Computer-Use Agents

출처:arXiv cs.AI

AI 인사이트

개발자

1.컴퓨터 사용 에이전트의 안전성 평가를 위한 이중 세분화 벤치마크 OSGuard 제안
2.작업 성공만으로는 놓치는 '안전하지 않은 지름길' 성공을 포착
3.행동 수준 가드레일 판단과 위험 증강 종단간 실행 스위트로 구성
4.현 멀티모달 가드레일은 개별 행동 판단은 잘하나 종단간 안전에는 격차 존재

왜 중요한가?

컴퓨터 사용 에이전트가 명목 목표는 달성하면서도 파괴적 덮어쓰기 같은 위험을 유발하는 실패를, 작업 성공 기준에 상태 기반 안전 불변식을 더해 구분해냄으로써 실제 배포 시 가드레일의 국소 감독과 전체 안전 사이 격차를 정밀 진단할 수 있게 했다.

언급 프로젝트

OSGuard OSWorld

AIChainDay 편집노트왜 이 기사를 골랐나

컴퓨터 사용 에이전트의 안전성을 평가하는 벤치마크 'OSGuard'는 AI 에이전트 활용이 급증하는 한국 시장에서 매우 시의적절합니다. 단순한 작업 성공을 넘어 안전한 경로로 목표를 달성했는지 평가함으로써, 실제 환경에서 발생할 수 있는 잠재적 위험을 식별하고 책임감 있는 AI 개발 및 배포를 위한 중요한 기준점을 제시합니다.

본문 미리보기

arXiv:2606.15034v1 Announce Type: new Abstract: Computer-use agents are increasingly evaluated by whether they complete realistic desktop and web tasks. However, task success alone can miss failures in which an agent reaches the nominal goal through an unsafe shortcut. We introduce OSGuard, a dual-granularity benchmark suite for evaluating safety in computer-use agents under benign, unchanged user instructions. OSGuard contains an action-level benchmark for local guardrail decisions and a risk-

전체 내용이 궁금하다면?

원문을 직접 읽어보세요

원문 보기

#AI에이전트#안전성#벤치마크#컴퓨터사용

이 글이 만들어진 과정

13:49AI 초안

판 이력 전체 보기 →

6시간 전

Announcing the Agentic Catalog Experience in Amazon Quick

Amazon Quick introduces the Agentic Catalog Experience, an AI-powered workflow for data curators to discover upstream catalog assets in natural language and auto-create Datasets and Topics with inherited semantics. Now in preview for AWS Glue Data Catalog and Databricks Unity Catalog

공식AWS ML Blog

원문

10시간 전

Optimizing production agents with Amazon Bedrock AgentCore Observability

As your AI agents move from prototype to production, the challenge shifts from getting them to work to keeping them fast and efficient. Learn how to use Amazon Bedrock AgentCore Observability and Amazon CloudWatch to find performance bottlenecks and diagnose memory issues in long-running agent sessi

공식AWS ML Blog

원문

OSGuard: A Benchmark for Safety in Computer-Use Agents

본문 미리보기

이 글이 만들어진 과정

관련 글

Announcing the Agentic Catalog Experience in Amazon Quick

Optimizing production agents with Amazon Bedrock AgentCore Observability

Building abundant intelligence

Advancing responsible AI across Europe