HyPOLE: Hyperproperty-Guided Multi-Agent Reinforcement Learning under Partial Observation
- 1.부분 관측 하 다중에이전트 강화학습(MARL)을 하이퍼프로퍼티로 유도하는 HyPOLE 프레임워크 제안
- 2.보상 설계 대신 시간 논리 HyperLTL의 표현력으로 목표·제약·전술을 명세
- 3.중앙집중 학습-분산 실행(CTDE) 기법과 결합해 분산 정책을 합성
- 4.SMAC·MessySMAC·WildFire 벤치마크에서 베이스라인 대비 명확한 우위 입증
왜 중요한가?
형식 명세는 수학적 엄밀성·표현력·전술 정의라는 이점에도 MARL에서는 거의 탐구되지 않았다. HyPOLE는 여러 에이전트 실행 궤적을 함께 규정하는 하이퍼프로퍼티(HyperLTL)를 부분관측 MARL에 통합해, 보상 설계의 한계를 넘는 학습 유도를 제시한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2606.30966v1 Announce Type: new Abstract: Formal specification is a powerful tool to guide the learning process and provides significant advantages over reward shaping: (1) mathematical rigor; (2) expressiveness to specify objectives and constraints, and (3) the ability to define tactics to achieve objectives. However, these benefits remain largely unexplored in the context of Multi-Agent Reinforcement Learning (MARL). This paper introduces HyPOLE, a novel framework for MARL under partial
전체 내용이 궁금하다면?
원문을 직접 읽어보세요