STHTD-MP는 오프-폴리시 TD 예측에서 보조 변수 메트릭을 행동 정책 Bellman 행렬의 대칭 부분으로 대체한 Mirror-Prox TD 방법이다. 단일 학습률로 주 변수와 보조 변수를 업데이트하며 Mirror-Prox 예측-교정 단계를 적용하고, Lyapunov 논증과 ODE 방법으로 고정 정책 선형 예측에서의 수렴을 엄밀히 증명했다. 두 상태·Random Walk·Boyan Chain 벤치마크의 수치 분석에서 STHTD-MP가 GTD2-MP 대비 더 작은 평균 수축 인수를 달성할 수 있음을 확인했으며, Baird's counterexample은 가정이 성립하지 않는 경계 특이 케이스로 식별됐다. 이 결과는 행동 정책 정보를 활용한 업데이트 기하학이 오프-폴리시 예측 수렴 속도를 실질적으로 개선할 수 있음을 시사한다.
- •STHTD-MP는 Mirror-Prox TD의 보조 변수 메트릭을 행동 정책 Bellman 행렬의 대칭 부분으로 교체해 saddle-point 최적화 기하학을 개선한다.
- •단일 학습률로 주 변수와 보조 변수를 동시에 업데이트하는 Mirror-Prox 예측-교정 단계를 적용한다.
- •Lyapunov 논증과 ODE 방법으로 고정 정책 선형 예측에서의 수렴을 엄밀히 증명하고 GTD2-MP와 스펙트럴 반경 비교를 도출했다.
- •두 상태·Random Walk·Boyan Chain 벤치마크에서 GTD2-MP 대비 더 낮은 수축 인수를 수치 확인했으며, Baird's counterexample은 경계 특이 케이스로 식별됐다.
Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction
- 1.STHTD-MP는 프라이멀-듀얼 안장점 공식에서 공분산 메트릭을 대칭 행동 정책 벨만 행렬로 대체한 Mirror-Prox TD
- 2.표준 확률 근사 가정 하에 수렴 공식 분석 — 행동 유도 메트릭의 양정치·Hurwitz·수렴 증명
- 3.2-상태·랜덤 워크·보얄 체인에서 GTD2-MP 대비 더 작은 평균 수축 인수 가능성 수치 확인
왜 중요한가?
기울기 TD 방법의 보조 변수 메트릭 설계에서 행동 정책 정보 활용이 수렴 속도를 개선할 수 있음을 이론·수치 분석으로 입증, 오프-폴리시 예측 학습 알고리즘 설계에 기여한다.
본문 미리보기
arXiv:2605.28849v1 Announce Type: new Abstract: Gradient temporal-difference methods provide stable off-policy prediction with linear function approximation, but their practical performance is strongly affected by the geometry induced by the auxiliary-variable metric. Existing Mirror-Prox TD methods typically use the feature covariance metric, whereas hybrid TD methods suggest that behavior-policy transition information can provide a more informative update geometry. This paper proposes a behav
전체 내용이 궁금하다면?
원문을 직접 읽어보세요