웹 에이전트가 태스크를 수행하려면 고수준 추론(태스크 분해)과 저수준 페이지 조작 모두 필요하지만, 기존 방법은 이를 동일하게 저장해 일반화와 실행 가능성이 충돌했다. DRIVE는 경험을 자연어 추론 스킬(전이 가능한 태스크 로직)과 프로그래밍 상호작용 스킬(실행 가능한 페이지 조작)로 이중 분리한 뒤, 장면 인식 조율 메커니즘으로 적응적으로 검색·호출한다. WebArena 5개 도메인에서 평균 태스크 성공률 52.8%로 스킬 없는 기준선 대비 7.3%p 향상했으며, 연속 학습 환경에서도 스킬 라이브러리를 반성·확장하는 구조가 누적 성능 향상을 지원한다.
- •웹 에이전트 경험을 추상적 추론 스킬(자연어)과 실행 가능한 상호작용 스킬(프로그래밍)로 이중 분리하는 DRIVE 프레임워크 제안.
- •WebArena 5개 도메인에서 평균 성공률 52.8%, 스킬 없는 기준선 대비 7.3%p 향상.
- •장면 인식 조율 메커니즘으로 태스크 의미에 따라 두 수준 스킬을 적응적으로 검색·호출.
- •스킬 수준 반성으로 계층별 실패 원인을 파악하고 스킬 라이브러리를 목표 지향적으로 확장.
DRIVE: Modeling Skills at the Reasoning and Interaction Levels for Web Agents under Continual Learning
- 1.DRIVE는 웹 에이전트 경험을 추상적 '추론 스킬'과 실행 가능한 '상호작용 스킬'로 분리 모델링하는 이중 레벨 프레임워크
- 2.WebArena 5개 도메인 평균 태스크 성공률 52.8% 달성, 스킬 미사용 기준 대비 7.3%p 향상
- 3.장면 인식 조정 메커니즘이 태스크 의미론에 따라 이중 레벨 스킬을 동적 검색·호출, 스킬별 실패 분석으로 라이브러리 확장
왜 중요한가?
웹 에이전트의 '추상 지식 재사용'과 '구체적 페이지 실행' 간 충돌을 계층 분리로 해결해, 지속 학습 기반 에이전트가 새로운 도메인에서도 성능을 축적할 수 있는 구조를 제시했다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.23939v1 Announce Type: new Abstract: Web agents require both high-level reasoning (for task decomposition) and low-level interactions (for page elements manipulation) to conduct different tasks. However, these knowledge types differ fundamentally: reasoning knowledge (e.g., booking a flight requires first searching for routes) is abstract and transferable across websites, while interaction knowledge (e.g., clicking the Search button at a specific coordinate on Site A) depends heavily
전체 내용이 궁금하다면?
원문을 직접 읽어보세요