컴퓨터 사용 에이전트(CUA)는 동적 환경에 배치되며 지속적 스킬 학습이 필요하지만, 기존 스킬 학습은 정적·안전 환경을 가정해 프롬프트 인젝션 같은 적대적 상호작용과 팝업 같은 환경 변화의 위험을 간과한다. SkillHarness는 동적 환경에서 안전한 스킬 하네싱을 위한 프레임워크로, 스킬 학습과 활용을 안전 제약 상호작용 과정으로 모델링한다. 다중 소스 감독 신호를 활용해 상호작용 궤적에서 안전한 스킬을 식별하는 '스킬 경계'를 도입하고 스킬 생애주기 전반에 자기개선 안전 제약을 구축한다. 또한 맥락에 따라 과제를 분해해 스킬 부분집합을 선택 활성화하는 선택적 스킬 재사용을 제안한다. 실험에서 학습 스킬의 비안전율을 57.1% 낮추고 실행 안정성을 일관되게 개선했다.
- •동적 환경에서 안전한 스킬 학습·활용을 위한 SkillHarness 프레임워크를 제안한다.
- •다중 소스 감독 신호로 안전한 스킬을 식별하는 '스킬 경계'를 도입한다.
- •맥락 기반 과제 분해로 스킬 부분집합을 선택 활성화하는 선택적 재사용을 제안한다.
- •학습 스킬의 비안전율을 57.1% 낮추고 실행 안정성을 개선했다.
SkillHarness: Harnessing Safe Skills for Computer-Use Agents
본문 미리보기
arXiv:2606.20636v1 Announce Type: new Abstract: Computer-Use Agents (CUAs) are increasingly deployed in dynamic interactive environments, creating a growing need for continual skill learning during interaction. Recent approaches address this challenge by learning reusable skills from successful trajectories. However, these skill learning methods largely assume static and safe environments, overlooking risks from adversarial interactions (e.g., prompt injections) and environmental dynamics (e.g.
전체 내용이 궁금하다면?
원문을 직접 읽어보세요