자율주행 강화학습에서 탐색의 안전성 문제를 해결하기 위해, 인식론적·우연적 불확실성이 적응형 임계값을 초과할 때만 전문가 조언을 활용하는 불확실성 인식 프레임워크를 제안했다. 약속-쿨다운 전략과 확률적 조기 종료 휴리스틱으로 전문가 조언 의존을 장기적으로 줄이고, 전문가·에이전트 경험을 공유 리플레이 버퍼에 결합하는 오프-폴리시 IQN 백본을 사용한다. CARLA 시뮬레이터의 비신호 교차로 실험에서 IQN 베이스라인 대비 성공률 5~7% 향상과 실패 감소를 달성했다. 위험 민감 불확실성과 조절된 전문가 통합이 센서 기반 RL 자율주행의 안전하고 효율적인 탐색을 가능하게 함을 보였다.
- •불확실성(인식론적·우연적)이 롤링 버퍼 기반 적응 임계값을 초과할 때만 전문가 조언을 활성화해 탐색 안전성과 조언 예산 효율을 동시에 확보했다.
- •약속-쿨다운 전략과 확률적 조기 종료로 에이전트가 일관된 전문가 기동을 경험하면서도 장기적 조언 의존에서 벗어나도록 설계했다.
- •CARLA 비신호 교차로에서 IQN 베이스라인 대비 성공률 5~7% 향상과 실패 감소를 달성했다.
Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving
- 1.자율주행 RL 훈련에서 인식론적·우발적 불확실성이 임계값 초과 시 전문가 조언을 선택적으로 요청하는 프레임워크 제안
- 2.commitment-cooldown 전략으로 전문가 조언 빈도와 지속 시간을 제어해 과도한 의존 방지
- 3.CARLA 비신호 교차로에서 IQN 기준 대비 성공률 5~7% 향상 및 충돌 감소 확인
왜 중요한가?
자율주행 RL에서 탐색은 충돌 위험을 내포한다는 딜레마를 전문가 조언의 상황적 통합으로 완화하는 실용적 접근으로, 센서 기반 환경의 RL 정책 학습 안전성을 높인다.
본문 미리보기
arXiv:2605.30576v1 Announce Type: new Abstract: Exploration in reinforcement learning for autonomous driving is inherently unsafe: agents must experience novel behaviors to learn, yet exploration can lead to collisions or off-road driving. We propose an uncertainty-aware framework that leverages expert advice to guide exploration while avoiding long-term dependence. Advice is triggered when epistemic or aleatoric uncertainty exceeds adaptive thresholds derived from rolling buffers, ensuring adv
전체 내용이 궁금하다면?
원문을 직접 읽어보세요