D-BOS(Differentiable Belief-based Opponent Shaping)는 멀티에이전트 강화학습에서 각 관찰자의 믿음 상태를 상대 조성 목표로 삼고, k-스텝 softmax-Bayes 믿음 동역학을 통해 미분하는 1차 방법이다. 파라미터·정책·가치 공간이 아닌 믿음 공간에서 조성 신호를 계산하므로 속임수나 협력 행동을 명시적으로 보상하지 않아도 환경 보상 구조에서 최적 전략이 자연스럽게 도출된다. 은닉 역할 게임에서 PPO와 BBM을 능가했으며, 특히 혼합 동기 설정에서 개선폭이 가장 컸다.
- •D-BOS는 상대방의 믿음 상태를 조성 목표로 삼아 k-스텝 softmax-Bayes 믿음 동역학을 통해 미분하는 최초의 1차 믿음 기반 상대 조성 방법이다.
- •속임수나 협력 행동을 명시적으로 보상하지 않고 환경 보상 구조에서 최적 전략이 자연스럽게 도출된다.
- •여러 관찰자에 대해 개별 믿음 굤적의 그레디언트를 집계해 자연스럽게 다중 관찰자 상황으로 확장된다.
- •은닉 역할 게임에서 PPO·BBM 대비 성능이 우수하며, 혼합 동기 설정에서 개선폭이 가장 크다.
Differentiable Belief-based Opponent Shaping
- 1.D-BOS는 상대 신념 상태를 형성 대상으로 삼아 k-스텝 소프트맥스-베이즈 신념 역학을 통해 미분하는 상대방 형성 방법
- 2.명시적 기만·협력 행동 보상 없이 최적 전략이 환경 보상 구조에서 자연 창발 — 다수 관찰자로 자연 확장 가능
- 3.숨겨진 역할 게임에서 PPO·BBM 대비 성능 우수, 혼합 동기 설정에서 최대 이득
왜 중요한가?
기존 다중 에이전트 상대방 형성 방법이 파라미터·정책 공간에 직접 개입하는 것과 달리, 신념 공간을 매개로 함으로써 더 해석 가능하고 일반화 가능한 협력·경쟁 전략 학습 경로를 제시한다.
본문 미리보기
arXiv:2605.29042v1 Announce Type: new Abstract: Human coordination often relies on the ability to influence the beliefs of others through strategic action. In multi-agent reinforcement learning, opponent shaping attempts to replicate this influence, though existing methods typically operate within an opponent's parameter, policy, or value space. Meanwhile, belief-manipulation techniques in hidden-role games often rely on hard-coded objectives, such as deception or belief saturation. We propose
전체 내용이 궁금하다면?
원문을 직접 읽어보세요