DRIVE: Modeling Skills at the Reasoning and Interaction Levels for Web Agents under Continual Learning | AIChainDay

🇰🇷 한국어 요약by Claude · 2026. 5. 26.

웹 에이전트가 태스크를 수행하려면 고수준 추론(태스크 분해)과 저수준 페이지 조작 모두 필요하지만, 기존 방법은 이를 동일하게 저장해 일반화와 실행 가능성이 충돌했다. DRIVE는 경험을 자연어 추론 스킬(전이 가능한 태스크 로직)과 프로그래밍 상호작용 스킬(실행 가능한 페이지 조작)로 이중 분리한 뒤, 장면 인식 조율 메커니즘으로 적응적으로 검색·호출한다. WebArena 5개 도메인에서 평균 태스크 성공률 52.8%로 스킬 없는 기준선 대비 7.3%p 향상했으며, 연속 학습 환경에서도 스킬 라이브러리를 반성·확장하는 구조가 누적 성능 향상을 지원한다.

•웹 에이전트 경험을 추상적 추론 스킬(자연어)과 실행 가능한 상호작용 스킬(프로그래밍)로 이중 분리하는 DRIVE 프레임워크 제안.
•WebArena 5개 도메인에서 평균 성공률 52.8%, 스킬 없는 기준선 대비 7.3%p 향상.
•장면 인식 조율 메커니즘으로 태스크 의미에 따라 두 수준 스킬을 적응적으로 검색·호출.
•스킬 수준 반성으로 계층별 실패 원인을 파악하고 스킬 라이브러리를 목표 지향적으로 확장.

AI2026년 5월 26일AI 점수: 92%

DRIVE: Modeling Skills at the Reasoning and Interaction Levels for Web Agents under Continual Learning

출처:arXiv cs.AI

✨ AI 인사이트

🧑‍💻 개발자

1.DRIVE는 웹 에이전트 경험을 추상적 '추론 스킬'과 실행 가능한 '상호작용 스킬'로 분리 모델링하는 이중 레벨 프레임워크
2.WebArena 5개 도메인 평균 태스크 성공률 52.8% 달성, 스킬 미사용 기준 대비 7.3%p 향상
3.장면 인식 조정 메커니즘이 태스크 의미론에 따라 이중 레벨 스킬을 동적 검색·호출, 스킬별 실패 분석으로 라이브러리 확장

💡

왜 중요한가?

웹 에이전트의 '추상 지식 재사용'과 '구체적 페이지 실행' 간 충돌을 계층 분리로 해결해, 지속 학습 기반 에이전트가 새로운 도메인에서도 성능을 축적할 수 있는 구조를 제시했다.

🏷️ 언급 프로젝트

DRIVE

📝 AIChainDay 편집노트왜 이 기사를 골랐나

지속 학습(Continual Learning) 기반 웹 에이전트의 기술 모델링에 대한 이 연구는 한국의 디지털 환경에서 자동화 솔루션의 잠재력을 확장합니다. 고수준 추론과 저수준 상호작용을 통합하여 변화하는 웹 환경에 능동적으로 대처하는 에이전트는 국내 기업들의 업무 효율성과 서비스 품질 향상에 크게 기여할 수 있습니다.

본문 미리보기

arXiv:2605.23939v1 Announce Type: new Abstract: Web agents require both high-level reasoning (for task decomposition) and low-level interactions (for page elements manipulation) to conduct different tasks. However, these knowledge types differ fundamentally: reasoning knowledge (e.g., booking a flight requires first searching for routes) is abstract and transferable across websites, while interaction knowledge (e.g., clicking the Search button at a specific coordinate on Site A) depends heavily

전체 내용이 궁금하다면?

원문을 직접 읽어보세요

원문 보기