체화 AI용 세계 모델은 미래 관측 예측이 아닌 개입(intervention) 결과를 결정하는 물리 구조를 표현해야 한다는 '물리적으로 실행 가능한 세계 모델' 개념을 제안했다. 외견상 동일한 장면이 물리적으로 상이한 결과를 낼 수 있기 때문에, 개입 쿼리를 답하기에 충분한 가장 단순한 물리 추상화를 동적으로 식별하고 조립하는 모듈형 아키텍처를 제안한다. 제안된 모델은 환경 표현·잠재 상태·액션 명세·개입 다이나믹스·쿼리 응답 컴포넌트로 구성되며, 기존 관측 예측 모델이 틀리게 답하는 쿼리를 올바르게 처리함을 실증했다. 이 설계 원칙은 해석 가능성과 검증 가능성을 확보하면서 계획·제어·검증을 위한 세계 모델 개발의 실용적 기반을 제공한다.
- •체화 AI 세계 모델은 관측 예측이 아닌 개입 결과를 결정하는 물리 구조를 표현해야 한다는 '물리적 실행 가능성' 기준을 새롭게 정의했다.
- •환경 표현·잠재 상태·액션 명세·개입 다이나믹스·쿼리 응답으로 구성된 모듈형 아키텍처로, 쿼리별로 가장 단순한 물리 추상화를 동적 조립한다.
- •기존 관측 예측 모델이 실패하는 쿼리(동일 외관, 다른 물리 결과)를 올바르게 처리하며 출력의 해석 가능성·검증 가능성을 확보함을 실증했다.
Physically Viable World Models: A Case for Query-Conditioned Embodied AI
- 1.체현 AI용 세계 모델은 관슰 예측이 아닌 개입 쿼리에 답할 수 있는 물리 구조를 표현해야 한다고 주장
- 2.잠재 물리를 고정하고 가시 장면을 변경하는 제어 벤치마크로 기존 관슰 예측 모델의 구조적 실패 실증
- 3.환경 표현·잊재 상태·액션·개입 동역학·쿼리 응답 등 모듈형 컴포넌트 설계 원칙 제안
왜 중요한가?
기존 세계 모델이 시각적으로 그럴듯하지만 물리적으로 틀린 롤아웃을 생성해 로봇·자율주행에 오작동을 유발하는 근본 문제를 구조적으로 분석하고, 체현 AI 세계 모델의 설계 원칙을 재정립한다.
본문 미리보기
arXiv:2605.30542v1 Announce Type: new Abstract: World models for embodied AI must be physically viable: constructed to answer intervention queries by representing the physical structure governing action outcomes, rather than merely predicting future observations. Existing observation-predictive world models can produce visually plausible but physically wrong rollouts. This failure is structural; distinct physical systems can look identical yet diverge under intervention. We expose this problem
전체 내용이 궁금하다면?
원문을 직접 읽어보세요