BA-TDC와 BA-TDRC는 TDC의 보조 공분산 행렬을 행동 정책 Bellman 행렬(A_μ)로 대체해 오프-폴리시 TD 예측의 안정성과 수렴 속도를 개선한 알고리즘이다. 행동 인식 기하학의 기여와 정규화의 기여를 분리 분석함으로써, 일부 과제에서는 기하학 교체만으로도 큰 이득을 얻지만 어려운 설정에서는 정규화가 필수임을 실험으로 보였다. 고정점 보존과 Hurwitz 안정 조건 하의 수렴을 증명했으며, 이 설계는 신경망 가치 근사의 마지막 층 보정 동역학을 이해하는 모델로도 활용 가능하다.
- •TDC의 보조 행렬 C를 행동 정책 Bellman 행렬(A_μ)로 교체한 BA-TDC와, 이를 정규화한 BA-TDRC를 제안했다.
- •고정점 보존과 Hurwitz 안정 조건 하의 거의 확실한 수렴을 증명하고, 선형 오차 재귀의 스펙트럴 반경으로 수렴 속도를 비교했다.
- •두 상태 반례·Random Walk에서는 행동 인식 기하학 단독으로 큰 개선을 보였으나, Baird's counterexample 등 어려운 환경에서는 정규화가 안정성의 핵심이었다.
- •이 결과는 신경망 가치 근사에서 특징 공분산과 시간적 전이 행렬이 마지막 층 보정에 미치는 영향 분석에도 적용 가능한 모델을 제공한다.
Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction
- 1.TDC 보조 공분산 행렬을 행동 정책 벨만 행렬(A_μ)로 대체한 BA-TDC·BA-TDRC 제안
- 2.선형 예측 설정에서 고정점 보존·수렴 증명, 스펙트럼 반경으로 평균 수렴 속도 비교
- 3.4개 벤치마크 실험에서 행동 인식 대체가 일부 작업에 큰 이점, 어려운 설정에는 정규화 필수
왜 중요한가?
오프-폴리시 TD 학습 불안정성 문제에서 보조 행렬을 행동 정책 전환 정보로 대체하는 것이 이론·실험 양측에서 개선 효과를 가져올 수 있음을 입증, 신경망 가치 함수 근사 설계에 직접 활용 가능한 인사이트를 제공한다.
본문 미리보기
arXiv:2605.28855v1 Announce Type: new Abstract: Temporal-difference learning with function approximation can be unstable under off-policy sampling. TDC stabilizes off-policy TD through an auxiliary covariance correction, and TDRC further regularizes this correction in a single-timescale recursion. This paper studies a behavior-aware replacement of the auxiliary covariance geometry in the linear prediction setting, which is the standard local model for understanding the feature-space dynamics of
전체 내용이 궁금하다면?
원문을 직접 읽어보세요