Skill-Guided Continuation Distillation for GUI Agents
- 1.SGCD: GUI 에이전트의 정책 이탈 상태 감독 공백을 메우는 자기개선 프레임워크
- 2.스킬 안내 없는 정책을 몇 스텝 실행해 현실적 이탈 상태에 도달 후 스킬 정책으로 완성
- 3.스킬을 연속 계획·핵심 목표·실패 함정·성공 기준으로 구성해 성공·실패 롤아웃에서 추출
- 4.OSWorld-Verified에서 3개 기본 모델 성공률을 30%대에서 50% 이상으로 향상
왜 중요한가?
전문가 궤적 행동복제에 의존하던 GUI 에이전트가 폐루프 실행 중 마주치는 미지의 이탈 상태에 감독이 없던 한계를, 스킬 기반 연속 궤적으로 보완해 성공률을 크게 끌어올린다.
본문 미리보기
arXiv:2606.18890v1 Announce Type: new Abstract: Improving GUI agents typically relies on behavior cloning on expert trajectories. However, as the current policy deviates from the expert policy, it inevitably encounters policy-induced off-trajectory states during closed-loop execution, i.e., states that fall outside the expert trajectories. Since expert trajectories provide no demonstrations for these unseen states, such states receive no effective supervision, leaving the policy unable to selec
전체 내용이 궁금하다면?
원문을 직접 읽어보세요