서브골 기반 정책 트리 탐색의 명시적 서브골 생성 오버헤드 문제를 해결하기 위해, √LTS 알고리즘을 통해 학습된 '리루터(rerooter)'로 문제를 암묵적으로 소프트 서브태스크로 분해하는 프레임워크를 제안했다. 클러스터링 기반, 휴리스틱 기반, 두 신호를 결합한 하이브리드 세 가지 리루터 설계를 제안하며, 명시적 서브골 재구성 없이 탐색 노력을 확장 가능하게 배분한다. 기존 서브골 기반 탐색이 실패하는 복잡한 환경에서 스케일하며, 테스트 도메인에서 최첨단 온라인 학습 효율을 달성했다. 계산 오버헤드를 크게 줄이면서 복잡한 단일 에이전트 결정론적 문제를 효과적으로 해결한다.
- •학습된 리루터가 문제를 소프트 서브태스크로 암묵적 분해하여, 명시적 서브골 생성의 계산 오버헤드 없이 정책 트리 탐색을 확장한다.
- •클러스터링 기반·휴리스틱 기반·하이브리드 세 가지 리루터 설계를 제안해 전역 구조와 비용 추정 신호를 다양하게 활용한다.
- •기존 서브골 기반 탐색이 실패하는 복잡한 환경에서 스케일하며 최첨단 온라인 학습 효율을 달성했다.
Structure-Induced Information for Rerooting Levin Tree Search
- 1.서브골 기반 정읔1 트리 탐색의 한계를 학습된 rerooter로 극복하는 sqrt(LTS) 기반 프레임워크 제안
- 2.클러스터링·휘리스틱·하이브리드 3가지 rerooter로 서브골 명시적 재구성 없이 암묵적 문제 분해 수행
- 3.기준 방법이 실패하는 복잡한 도메인에서 확장 가능하며 최고 온라인 훈련 효율 달성
왜 중요한가?
기존 서브골 기반 탐색이 복잡 환경에서 높은 계산 오버헤드로 확장하지 못하는 문제를, 암묵적 분해를 학습하는 rerooter로 해결해 단일 에이전트 계획·탐색의 확장성을 높인다.
본문 미리보기
arXiv:2605.30664v1 Announce Type: new Abstract: Subgoal-based policy tree search, which uses a policy to guide search, is effective for complex single-agent deterministic problems but often relies on explicit subgoal generation that can incur substantial overhead and hinders scalability. In this paper, we overcome these limitations by using a learned ``rerooter'' through the recently-introduced $\sqrt{\text{LTS}}$ algorithm. A rerooter implicitly decomposes the problem into soft subtasks. While
전체 내용이 궁금하다면?
원문을 직접 읽어보세요