이 논문은 인과추론과 강화학습을 하나의 틀로 통합하는 '인과 강화학습(CRL)'을 소개하는 입문적 개관이다. 두 분야가 독립적으로 발전해왔지만 사실은 동일한 기본 요소인 '반사실적 관계'를 다루기에 본질적으로 연결돼 있다고 본다. 저자들은 RL 에이전트가 놓이는 환경을 서로 다른 인과 불변성을 지닌 자율 메커니즘들의 집합으로 분해하고 이를 구조적 인과 모델(SCM)로 간결히 모델링하면, 어떤 표준 RL 설정도 암묵적으로 이 모델을 내포함을 보인다. 이 형식화는 온라인·오프폴리시·인과 계산 학습 등 문헌에서 무관해 보이던 학습 양식을 통합적으로 다루게 한다. 나아가 일반화된 정책 학습, 어디에 개입할지, 모방 학습, 반사실적 학습 같은 새로운 학습 차원을 인과적 관점에서 제시하며, 인과추론과 RL을 나란히 연구할 큰 잠재력을 주장한다.
- •인과추론과 강화학습이 공통된 '반사실적 관계'를 다루어 본질적으로 연결됨을 제시
- •RL 환경을 자율 메커니즘의 집합으로 보고 구조적 인과 모델(SCM)로 모델링
- •온라인·오프폴리시·인과 계산 학습을 통합적으로 설명
- •일반화된 정책 학습·개입 위치·모방·반사실 학습 등 새 학습 차원 제시
- •인과추론과 RL을 통합한 CRL 연구 분야를 제안
An Introduction to Causal Reinforcement Learning
본문 미리보기
arXiv:2606.24160v1 Announce Type: new Abstract: Causal inference provides a set of principles and tools that allow one to combine data and knowledge about an environment to reason with questions of counterfactual nature, i.e., what would have happened had reality been different, even when no data of this unrealized reality is currently available. Reinforcement learning provides methods to learn a policy that optimizes a specific measure (e.g., reward, regret) when the agent is deployed in an en
전체 내용이 궁금하다면?
원문을 직접 읽어보세요