Poker Arena는 무제한 텍사스 홀덤 토너먼트 플랫폼으로, 핸드 내·세션·세션 간의 3계층 메모리 구조와 전략적 추론을 베팅 크기 보정·포지션 인식 등 해석 가능한 9개 축으로 분해한 인지 프로파일을 결합한다. 기존 게임 벤치마크가 이질적 추론 차원을 단일 점수로 뭉뚱그리는 한계를 겨냥했다. 7개 프런티어 모델을 1,000핸드 50세션과 통제된 메모리 제거 실험으로 평가한 결과, 토너먼트 칩과 종합 축 점수의 순위가 달랐다. Claude Opus 4.6은 1위 14회로 +$15,730 칩을 따 우승했지만 평균 축 점수에서는 7개 중 5위에 그쳤고, 지속 메모리는 일부 모델엔 도움이, 일부엔 해가 됐다. 다축 평가가 스칼라 리더보드가 체계적으로 잘못 매기는 역량 구조를 드러내며, 단일 축 최고 성능보다 차원 간 일관성이 더 중요함을 보였다.
- •3계층 메모리 구조와 9축 인지 프로파일을 결합한 포커 토너먼트 평가 플랫폼
- •전략 추론을 베팅 크기 보정·포지션 인식 등 해석 가능한 차원으로 분해
- •Claude Opus 4.6은 1위 14회·+$15,730 칩으로 우승했으나 평균 축 점수는 7개 중 5위
- •지속 메모리는 일부 모델에게 도움, 일부에게는 오히려 해로 작용
- •다축 평가가 스칼라 리더보드의 잘못된 순위를 드러내고 차원 간 일관성의 중요성을 입증
Poker Arena: Multi-Axis Profiling of Strategic Reasoning and Memory in LLMs
본문 미리보기
arXiv:2606.13815v1 Announce Type: new Abstract: Strategic reasoning under uncertainty underpins consequential decisions in negotiation, finance, and policy, but prevailing game-play benchmarks collapse heterogeneous reasoning dimensions into a single scalar, leaving the capability structure of frontier LLMs unexamined. We introduce Poker Arena, a no-limit Texas Hold'em tournament platform that couples a three-layer memory architecture (within-hand, session, and cross-session) with a nine-axis c
전체 내용이 궁금하다면?
원문을 직접 읽어보세요