다단계 공간 추론에서 중간 상태와 상태 전이를 검증하지 않고 암묵적으로 처리해 신뢰성이 떨어지는 문제를 다룬다. SVoT(State-aware Visualization-of-Thought)는 검증 가능한 중간 상태와 시각화를 번갈아 생성하는 강화학습 프레임워크로, 전이 추론 사슬을 생성 과정에 통합해 행동의 전제조건과 효과를 텍스트·시각 추론으로 검증한다. 그룹 상대 정책 최적화(GRPO)로 학습하고 보상 설계를 통해 검증을 구현했다. 기존 벤치마크가 상태 전이를 단일 변수 갱신으로 단순화하는 한계를 보완하고자 Pacman·Gather 등 다중 객체 상호작용과 수치 추론이 필요한 5개 영역을 구축했으며, 분포 외(OOD) 테스트에서 최대 65%p의 절대 정확도 향상을 달성했다.
- •검증 가능한 중간 상태와 시각화를 번갈아 생성하는 공간 추론 RL 프레임워크 SVoT 제안
- •전이 추론 사슬을 생성에 통합해 행동의 전제조건·효과를 텍스트·시각으로 검증
- •GRPO와 세분화된 보상 설계로 학습, Pacman·Gather 등 다중 객체·수치 추론 5개 영역 구축
- •분포 외 테스트에서 최대 65%p 절대 정확도 향상
SVoT: State-aware Visualization-of-Thought for Spatial Reasoning via Reinforcement Learning
- 1.MLLM 공간추론용 SVoT 제안, 검증 가능한 중간 상태와 시각화를 교차 생성하는 강화학습 프레임워크
- 2.전이 추론 체인을 생성 과정에 통합해 행동의 전제조건·효과를 텍스트·시각 교차 추론으로 검증
- 3.GRPO로 학습하고 보상 설계로 검증을 구현, 세분화된 보상의 효과를 비교 평가
- 4.Pacman·Gather 등 5개 도메인 신설, OOD 테스트에서 최대 65%p 절대 정확도 향상 달성
왜 중요한가?
기존 공간추론 벤치마크가 상태 전이를 단일 변수 갱신으로 단순화해 다중 홉 추론의 신뢰성을 제대로 평가하지 못한 한계를, 중간 상태를 명시적으로 검증하는 방식으로 보완했다. 멀티모달 에이전트의 물리·공간 추론 신뢰성을 높이는 실질적 방법으로 최대 65%p 향상은 일반화 측면에서 의미가 크다.
본문 미리보기
arXiv:2606.11770v1 Announce Type: new Abstract: Spatial reasoning remains a challenge for Multimodal Large Language Models (MLLMs), as it requires reliable multi-hop inference over both intermediate states and state transitions. Current studies often leave intermediate states unverified and treat state transitions as implicit processes, which limits reliability in multi-hop spatial reasoning. To address this, we propose State-aware Visualization-of-Thought (SVoT), a reinforcement learning frame
전체 내용이 궁금하다면?
원문을 직접 읽어보세요