Strat-Reasoner는 다중 에이전트 게임에서 LLM의 전략적 추론 능력을 강화하기 위한 RL 기반 프레임워크이다. 에이전트의 추론이 다른 에이전트의 추론 과정까지 통합하는 재귀적 추론 패러다임을 도입하고, 중앙화된 CoT 비교 모듈로 중간 추론 시퀀스의 품질을 평가해 효과적인 보상 신호를 제공한다. 다양한 다중 에이전트 게임에서 기저 LLM 대비 평균 22.1% 성능 향상을 달성했다.
- •LLM은 개별 추론 태스크에는 뚰어나지만, 결과가 모든 에이전트의 공동 전략에 의존하는 다중 에이전트 게임에서는 어려움을 겨는다.
- •Strat-Reasoner는 에이전트의 추론이 다른 에이전트의 추론 과정을 통합하는 재귀적 추론 패러다임을 도입한다.
- •중앙화된 CoT 비교 모듈로 중간 추론 시퀀스의 품질을 평가해 효과적인 보상 신호를 제공한다.
- •다양한 다중 에이전트 게임에서 기저 LLM 대비 평균 22.1% 성능 향상을 달성했다.
Strat-Reasoner: Reinforcing Strategic Reasoning of LLMs in Multi-Agent Games
- 1.LLM 멀티에이전트 게임 전략 추론 강화를 위한 RL 기반 Strat-Reasoner 프레임워크 제안
- 2.재귀적 추론 패러다임으로 에이전트가 다른 에이전트의 추론까지 통합해 비정상성 문제 해결
- 3.중앙화된 CoT 비교 모듈로 중간 추론 시퀀스에 효과적인 보상 신호 제공
- 4.다양한 멀티에이전트 게임에서 평균 22.1% 성능 향상 달성
왜 중요한가?
기존 단일 에이전트 RL로 해결 못한 멀티에이전트 환경의 비정상성 문제를 해결하며, LLM의 복잡한 전략적 의사결정 능력을 크게 향상시킨다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.04906v1 Announce Type: new Abstract: While Large Language Models (LLMs) excel in certain reasoning tasks, they struggle in multi-agent games where the final outcome depends on the joint strategies of all agents. In multi-agent games, the non-stationarity of other agents brings significant challenges on the evaluation of the reasoning process and the credit assignment over multiple reasoning steps. Existing single-agent reinforcement learning (RL) approaches and their multi-agent exte
전체 내용이 궁금하다면?
원문을 직접 읽어보세요