CARL(Contrastive Action-based Representations for Reusable Local Control)은 계층적 강화학습(HRL)에서 재사용 가능한 스킬 획득을 위해 국소 역학 규칙성을 활용하는 알고리즘이다. 서로 다른 전역 맥락에서도 국소 전이는 유사한 행동 시퀀스를 필요로 한다는 직관에서 출발해, 이 맥락과 행동 시퀀스를 대조 학습으로 정렬해 스킬 재사용 위치를 학습한다. 복잡한 휴머노이드 환경에서 의미 있는 스킬의 정성적 군집화를 보였고, HIQL과 결합해 OGBench 벤치마크에서 하위 태스크 성능이 향상됐다. 오프라인 데이터에서 장기 태스크를 효율적으로 해결하는 HRL의 스킬 재사용 문제에 대한 실용적 접근법이다.
- •국소 역학 규칙성 가설: 다양한 전역 맥락의 국소 전이는 유사한 행동 시퀀스를 공유하며, 이를 대조 학습으로 정렬해 재사용 가능 스킬을 식별.
- •복잡한 휴머노이드 환경에서 CARL이 학습한 스킬의 정성적 군집화 확인, 의미 있는 스킬 분리를 달성.
- •HIQL과 통합 시 OGBench 벤치마크에서 하위 태스크 성능 향상, 다양한 HRL 알고리즘에 보편 적용 가능.
- •오프라인 계층적 RL에서 스킬 재사용이라는 오랜 난제에 대한 원칙적이고 실용적인 해법 제시.
Exploiting Local Dynamics Regularity for Reusable Skills in Offline Hierarchical RL
본문 미리보기
arXiv:2605.26371v1 Announce Type: new Abstract: Hierarchical Reinforcement Learning (HRL) promises to solve long-horizon Reinforcement Learning (RL) tasks more efficiently than non-hierarchical counterparts by discovering and reusing temporally-extended skills. However, obtaining skills that are actually reusable remains an open challenge. Towards this end, we focus on abstractions that exploit the intuition of local dynamics: local transitions in different global contexts require similar kinds
전체 내용이 궁금하다면?
원문을 직접 읽어보세요