산업용 이벤트 구동 스케줄링에서 비동기 이벤트 스트림, 미정의 행동 허용 가능성, 실행 오류 귀인 문제로 인한 RL 정책의 sim-to-real 격차를 해소하기 위한 정책 중립적 실행·측정 레이어를 제안했다. 이 레이어는 비동기 이벤트에서 의사결정 유효 스냅샷을 구성하고, 표준화된 실행 계약과 행동 허용 가능성을 정의하며, 정책 의도·트랜잭션 결과·물리적 실행·인간 개입 간 차이를 구조화된 유형의 결과로 기록한다. 이산 사건 시뮬레이션 평가에서 모든 관찰 지연 체계에서 분석적 이점을 확인했으며, 낮은 지연 환경에서는 회피 가능한 실행 오류를 사전에 방지하는 운영 이점도 보였다.
- •비동기 이벤트 스트림을 의사결정 유효 스냅샷으로 변환하고, 행동 허용 가능성과 실행 결과를 구조화된 유형으로 명시하는 정책 중립적 레이어를 제안했다.
- •정책 의도·트랜잭션 결과·물리적 실행·인간 개입 4가지 차이를 기록해 실행 불확실성을 관리 가능한 감독 데이터로 전환한다.
- •이산 사건 시뮬레이션 평가에서 모든 관찰 지연 체계에서 분화되지 않은 실행 실패가 완전 귀인 가능한 구조화 결과로 전환됨을 확인했다.
- •낙은 관찰 지연 환경에서는 회피 가능한 실행 오류를 사전에 방지할 수 있어 운영 이점이 가장 크다.
Bridging the Sim-to-Real Gap in Reinforcement Learning-Based Industrial Dispatching through Execution Semantics
- 1.산업용 이벤트 기반 스케줄링에서 비동기·부분 관측 상태로 결정 일관성 부재, 행동 허용 범위 미정의 문제 식별
- 2.정책 중립적 실행·측정 레이어 제안 — 비동기 이벤트에서 결정 유효 스냅샷 생성 및 표준화된 실행 계약 정의
- 3.이산 사건 시뮬레이션 평가에서 미분류 실행 오류를 구조화된 타입별 결과로 전환, 낮은 관측 지연에서 오류 사전 차단
왜 중요한가?
RL 기반 산업 스케줄링을 실제 배포 환경으로 전환 시 발생하는 시뮬레이션-실세계 격차를 구조적으로 관측·귀인 가능한 레이어로 해결해, 정책 미세조정 및 신뢰성 향상에 직접 활용할 수 있는 방법론을 제공한다.
본문 미리보기
arXiv:2605.29078v1 Announce Type: new Abstract: Event-driven scheduling policies are increasingly deployed in industrial environments, where decisions are made under asynchronous and partially observed system states. As a result, decision states are not temporally consistent, action admissibility is not explicitly defined, and the origin of execution errors remains ambiguous. These issues limit both reliability and interpretability. To address this gap, a policy-neutral execution and measurem
전체 내용이 궁금하다면?
원문을 직접 읽어보세요