멀티모달 LLM들이 정적 이미지 인식은 잘 하지만 직관적 물리 추론에 취약하다는 점을 검증하기 위해 당구 환경 기반 벤치마크 BilliardPhys-Bench를 제안했다. 절차적 엔진으로 마찰·탄성 충돌이 있는 당구 시나리오를 무작위 생성하고, (1) 공 충돌 예측, (2) 벽 반사 추론, (3) 정지 후 최종 위치 추정 세 가지 능력을 평가한다. GPT, Claude, Gemini, Qwen 계열 최신 MLLM들을 평가한 결과 시뮬레이션 시간이 길어지고 장면이 복잡해질수록 성능이 급격히 하락했다. 물리적 결과 추론이 어려울 때 모델들이 상호작용이 없다고 예측하는 "정지 편향(stasis bias)"이 공통 실패 패턴으로 관찰됐다.
- •BilliardPhys-Bench는 마찰·탄성 충돌이 포함된 당구 환경에서 충돌 예측·벽 반사·최종 위치 추정 3가지 물리 추론 능력을 평가하는 절차적 벤치마크다.
- •GPT, Claude, Gemini, Qwen 등 주요 MLLM 모두 시뮬레이션 시간 증가 및 복잡한 장면 기하학에서 성능이 크게 하락했다.
- •어려운 물리 결과 추론 시 '상호작용 없음'으로 예측하는 '정지 편향(stasis bias)'이 공통 실패 패턴으로 확인됐다.
BilliardPhys-Bench: Benchmarking Physical Reasoning and Visual Dynamics of Multimodal LLMs
- 1.당구 물리 시뮬레이션 기반 벤치마크 BilliardPhys-Bench로 GPT·Claude·Gemini·Qwen 계열 MLLM 평가
- 2.시뮬레이션 시간 증가·장면 복잡도 상승 시 모델 성능이 일관되게 저하됨을 실증
- 3.물리 결과 추론이 어려울수록 상호작용 없음으로 예측하는 'stasis bias' 실패 모드 발견
왜 중요한가?
정적 이미지 인식은 강하지만 물리적 인과 추론은 현 MLLM의 취약점임을 새 벤치마크로 구체적으로 입증, 시각 동역학에 특화된 귀납적 편향 설계의 필요성을 제기한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.30900v1 Announce Type: new Abstract: Current multimodal models handle static image recognition well, but intuitive physical reasoning remains a weakness. Predicting how objects will move and interact from a single image is still difficult for these systems. We present BilliardPhys-Bench, a benchmark for physical reasoning in synthetic billiards environments. Its procedural engine generates randomized scenarios with friction and elastic collisions. The benchmark tests three abilities:
전체 내용이 궁금하다면?
원문을 직접 읽어보세요