기존 강화학습 쉴딩 기법은 안전 관련 전이 동역학을 사전에 알아야 하는 제약이 있다. 이 연구는 전이 확률 집합을 가진 강건 MDP(RMDP)에 대한 쉴딩 프레임워크를 제안하며, LTL 공식으로 정의된 안전 기준을 최악 전이 확률 하에서 보장한다. 프레임워크가 건전성(허용된 모든 정책이 안전)과 최적성(모든 안전 정책이 허용)을 수학적으로 증명했으며, PAC 보장이 있는 전이 확률 샘플링과 결합해 미지 MDP에서 높은 신뢰도로 안전을 보장하면서 최소한의 제약만 부과함을 실험으로 확인했다.
- •RMDP에서 최악 전이 확률 하에 LTL 안전 기준을 충족하도록 쉴드를 정의하며, 건전성과 최적성을 수학적으로 증명한다.
- •PAC 보장 전이 확률 샘플링과 결합해 미지 MDP에서도 높은 신뢰도로 안전을 보장하는 쉴드를 구축할 수 있다.
- •실험에서 학습된 RMDP 쉴드가 미지 MDP에서 안전을 보장하면서 샘플 수 증가에 따라 강한 기대 보상을 회복함을 확인했다.
Robust Shielding for Safe Reinforcement Learning
- 1.강화 학습 안전성 보장
- 2.강건한 쉴딩 기술 개발
- 3.MDP 환경 안정화 기여
왜 중요한가?
강화 학습 에이전트의 안전성을 형식적으로 보장하는 기술은 자율 주행, 로봇 공학 등 안전이 중요한 AI 응용 분야에서 신뢰도를 크게 높일 수 있습니다. 이는 실제 환경에서 AI 도입을 가속화할 잠재력이 있습니다.
본문 미리보기
arXiv:2606.00270v1 Announce Type: new Abstract: Shielding is an effective approach to formally guarantee the safety of reinforcement learning agents in Markov decision processes (MDPs). However, existing shielding techniques typically assume knowledge of the safety-relevant transition dynamics - a requirement that is seldom met in practice. To address this limitation, we introduce a novel shielding framework for robust MDPs (RMDPs), i.e., MDPs with sets of transition probabilities. We define sa
전체 내용이 궁금하다면?
원문을 직접 읽어보세요