월드 모델 기반 계획은 누적되는 예측 오차와 최적화 가능한 목표 정의의 어려움이 병목이다. 시각적 목표는 정밀한 지역 그래디언트를 주지만 원거리 안내가 약하고, 언어는 유연하지만 잡음 섞인 교차 모달 정렬이나 대형 생성 모델 의존이 문제다. LAGO(Latent Goal Prediction from Language)는 언어 지시로부터 중간 목표 상태 시퀀스와 행동 조건부 롤아웃을 모두 같은 잠재 공간에서 예측하는 프레임워크다. 단일 전역 목표 최적화 대신 지시를 지역적으로 다루기 쉬운 잠재 하위목표로 동적 분해하고, 온라인으로 갱신하며 소프트 최소 궤적 비용을 사용해 긴 지평선에서도 일관된 잠재 궤적을 따른다. 여러 환경 실험에서 기존 방법의 급격한 성능 저하를 피했다.
- •언어 지시에서 중간 목표 상태와 행동 조건부 롤아웃을 같은 잠재 공간에서 예측하는 LAGO를 제안한다.
- •지시를 지역적으로 다루기 쉬운 잠재 하위목표로 동적 분해한다.
- •하위목표를 온라인 갱신하고 소프트 최소 권적 비용으로 긴 지평선 계획을 수행한다.
- •여러 환경에서 기존 방법의 급격한 장기 계획 성능 저하를 회피했다.
Latent Goal Prediction from Language for Model-Based Planning
본문 미리보기
arXiv:2606.20627v1 Announce Type: new Abstract: Planning with world models is bottlenecked by compounding prediction errors and the difficulty of defining optimizable goals. Visual targets provide precise local gradients but poor distant guidance, while language is flexible yet limited by noisy cross-modal alignment or dependence on large generative models unsuited for the high-sampling nature of model-based planning. To address these challenges, we introduce Latent Goal Prediction from Languag
전체 내용이 궁금하다면?
원문을 직접 읽어보세요