🇰🇷 한국어 요약by Claude · 2026. 6. 17.
Ai2가 언어 지시 기반 3D 모션 예측 모델 MolmoMotion을 공개했다. 비디오 프레임, 객체 위 3D 질의점, "탁자 위 과일 담긴 나무 그릇을 옮기고 회전시켜라" 같은 동작 설명을 입력받아 해당 점들이 향후 수 초간 3D 공간에서 어떻게 이동할지 예측한다. Molmo 2를 백본으로 쓰며, 단계별로 좌표를 생성하는 자기회귀(AR) 변형과 불확실성을 다루는 플로우매칭(FM) 변형 두 가지로 학습했다. 116만 개 영상에서 추출한 최대 규모 데이터셋 MolmoMotion-1M과 검증용 벤치마크 PointMotionBench(2.7K 클립)에서 기존 예측 기법을 모두 능가했고, 로봇 시뮬레이션 pick-and-place 성공률은 76.3%로 Molmo 2 기반(56.0%)을 크게 앞섰다. 가중치·데이터·벤치마크를 모두 오픈소스로 공개해 로봇 플래닝과 비디오 생성에 곧바로 활용할 수 있다.
- •입력은 RGB 프레임 + 객체 위 3D 질의점 + 자연어 동작 설명이며, 출력은 각 점의 향후 3D 궤적. Molmo 2 백본으로 언어와 객체·점을 연결한다.
- •자기회귀(AR) 변형은 좌표를 텍스트로 단계별 생성해 정확도가 높고, 플로우매칭(FM) 변형은 노이즈를 모션으로 변환해 복수의 가능한 미래(불확실성)를 표현한다.
- •학습 데이터 MolmoMotion-1M은 116만 영상에서 자동 파이프라인으로 추출한 객체 결합 3D 점 궤적으로, 736개 모션 타입과 5.6K 객체를 포함한다.
- •벤치마크 PointMotionBench(2.7K 클립, 111 객체 카테고리, 61 모션 타입)에서 픽셀 기반 비디오 생성기, 파라메트릭 3D 기법, 등속 베이스라인을 모두 능가했다.
- •로봇 시뮬레이션 pick-and-place 76.3%(Molmo 2 56.0%) 달성, 비디오 생성 시 5개 모션 지표 모두 개선. 모델·데이터·벤치마크를 오픈소스로 공개.
AI2026년 6월 17일
MolmoMotion: Language-guided 3D motion forecasting
출처:HuggingFace Blog
전체 내용이 궁금하다면?
원문을 직접 읽어보세요
공유: