FlowR2A는 멀티모달 자율주행 계획에서 점수 기반 방식과 앵커 기반 방식의 오랜 긴장을 해소하는 생성 모델이다. 점수 기반은 조밀한 보상 지도를 받지만 고정된 행동 어휘에 갇히고, 앵커 기반은 제안을 동적으로 생성하나 단일 정답 궤적에 국한된 희소 지도를 받는다. FlowR2A는 시뮬레이션 보상을 판별 목표가 아닌 생성 조건으로 재구성하여, 조밀한 궤적-보상 쌍에서 보상 조건부 행동 분포를 플로 매칭 디코더로 학습한다. 이로써 안전·진행·편안함·규칙 준수에서 행동과 결과의 상관을 모델이 내재화하도록 강제한다. 타임스텝별 세분화 보상 조건화와 보상 노이즈 증강으로 하드 안전 제약과 소프트 진행 목표를 균형 맞추고, 보상 유도·앵커 샘플링으로 제어 가능한 테스트타임 샘플링을 지원한다. NAVSIM v1·v2 벤치마크에서 기존 대비 훨씬 높은 품질의 멀티모달 제안으로 최고 성능을 달성했다.
- •시뮬레이션 보상을 판별 목표가 아닌 생성 조건으로 재구성
- •보상 조건부 행동 분포를 플로 매칭 디코더로 학습해 조밀 지도와 제안 생성을 통합
- •타임스텝별 보상 조건화와 보상 노이즈 증강으로 안전·진행 목표 균형
- •보상 유도·앵커 샘플링으로 제어 가능한 테스트타임 샘플링 지원
- •NAVSIM v1·v2 벤치마크에서 최고 성능 달성
FlowR2A: Learning Reward-to-Action Distribution for Multimodal Driving Planning
본문 미리보기
arXiv:2606.24231v1 Announce Type: new Abstract: Multimodal driving planning faces a long-standing tension between two paradigms: scoring-based methods benefit from dense reward supervision but are confined to a fixed action vocabulary, while anchor-based methods generate proposals dynamically yet suffer from sparse supervision constrained to a single ground-truth trajectory. In this work, we propose FlowR2A, which resolves this tension by reframing simulation-based rewards from discriminative t
전체 내용이 궁금하다면?
원문을 직접 읽어보세요