한국어 요약by Claude · 2026. 6. 17.

Ai2가 언어 지시 기반 3D 모션 예측 모델 MolmoMotion을 공개했다. 비디오 프레임, 객체 위 3D 질의점, "탁자 위 과일 담긴 나무 그릇을 옮기고 회전시켜라" 같은 동작 설명을 입력받아 해당 점들이 향후 수 초간 3D 공간에서 어떻게 이동할지 예측한다. Molmo 2를 백본으로 쓰며, 단계별로 좌표를 생성하는 자기회귀(AR) 변형과 불확실성을 다루는 플로우매칭(FM) 변형 두 가지로 학습했다. 116만 개 영상에서 추출한 최대 규모 데이터셋 MolmoMotion-1M과 검증용 벤치마크 PointMotionBench(2.7K 클립)에서 기존 예측 기법을 모두 능가했고, 로봇 시뮬레이션 pick-and-place 성공률은 76.3%로 Molmo 2 기반(56.0%)을 크게 앞섰다. 가중치·데이터·벤치마크를 모두 오픈소스로 공개해 로봇 플래닝과 비디오 생성에 곧바로 활용할 수 있다.

•입력은 RGB 프레임 + 객체 위 3D 질의점 + 자연어 동작 설명이며, 출력은 각 점의 향후 3D 궤적. Molmo 2 백본으로 언어와 객체·점을 연결한다.
•자기회귀(AR) 변형은 좌표를 텍스트로 단계별 생성해 정확도가 높고, 플로우매칭(FM) 변형은 노이즈를 모션으로 변환해 복수의 가능한 미래(불확실성)를 표현한다.
•학습 데이터 MolmoMotion-1M은 116만 영상에서 자동 파이프라인으로 추출한 객체 결합 3D 점 궤적으로, 736개 모션 타입과 5.6K 객체를 포함한다.
•벤치마크 PointMotionBench(2.7K 클립, 111 객체 카테고리, 61 모션 타입)에서 픽셀 기반 비디오 생성기, 파라메트릭 3D 기법, 등속 베이스라인을 모두 능가했다.
•로봇 시뮬레이션 pick-and-place 76.3%(Molmo 2 56.0%) 달성, 비디오 생성 시 5개 모션 지표 모두 개선. 모델·데이터·벤치마크를 오픈소스로 공개.

0단 자동

AI가 규칙대로 쓰고 그대로 게시했습니다. 사람이 따로 보지 않았습니다.

규칙 판: 규칙 판 도입 이전 기사입니다.
남기는 것: 규칙 판 · 모델 · 시각
판 기록: 아직 없습니다.

AI2026년 6월 17일AI 점수: 90%

MolmoMotion: Language-guided 3D motion forecasting

출처:HuggingFace Blog

AI 인사이트

개발자

1.Ai2가 언어 지시 기반 3D 모션 예측 모델 MolmoMotion 공개 — 영상·쿼리점·동작 설명으로 향후 궤적 예측
2.Molmo 2 백본 사용, 자기회귀형(AR)과 불확실성을 다루는 플로우매칭형(FM) 두 변형으로 학습
3.PointMotionBench에서 기존 3D 예측 기법·영상 생성기·등속 베이스라인을 모두 능가
4.시뜬 픽앤플레이스 76.3% 성공(Molmo 2는 56.0%), 가중치·100만 영상 데이터셋·벤치마크 오픈 공개

왜 중요한가?

지각은 이미 일어난 움직임을 설명하는 데 그치지만, 로봇 조작이나 물리적으로 그럴듯한 영상 생성에는 '다음에 어떻게 움직일지'를 예측하는 능력이 필요하다. MolmoMotion은 객체 카테고리 템플릿 없이 일반 영상만으로 학습된 클래스 무관·시점 안정 3D 궤적 표현을 제공해, 로보틱스 계획과 궤적 조건부 영상 생성에 바로 적용할 수 있다.

언급 프로젝트

MolmoMotion Molmo 2 MolmoMotion-1M PointMotionBench Ai2

AIChainDay 편집노트왜 이 기사를 골랐나

자연어 지시를 통해 3D 모션을 예측하는 MolmoMotion 기술은 국내 로봇 공학, 메타버스, 애니메이션 분야에 큰 영향을 미칠 것입니다. 사용자가 더욱 직관적으로 3D 콘텐츠를 제작하고 로봇의 동작을 제어할 수 있는 기반을 마련해, 관련 시장의 성장을 가속화할 잠재력이 큽니다.

전체 내용이 궁금하다면?

원문을 직접 읽어보세요

원문 보기

#3D 모션 예측#멀티모달#언어 기반 모델#AllenAI

이 글이 만들어진 과정

01:33AI 초안

판 이력 전체 보기 →

MolmoMotion: Language-guided 3D motion forecasting

이 글이 만들어진 과정

관련 글

Quoting Greg Brockman

datasette-apps 0.2a0

The Labs Just Proved Your Agent’s Sandbox Is Only a Suggestion

Ten advances in mathematics and theoretical computer science