NVIDIA가 물리적 AI 추론과 행동 생성을 위한 최초의 오픈 옴니모델인 Cosmos 3를 출시하며 Hugging Face에서 즉시 제공한다. Cosmos 3는 Mixture-of-Transformers(MoT) 아키텍처를 기반으로 세계 생성·물리 추론·행동 생성을 단일 모델에 통합해, 기존에 별도로 운용하던 Cosmos Predict·Transfer·Reason·Policy를 대체한다. Cosmos 3 Nano(8B 파라미터, RTX PRO 6000 구동 가능)와 Cosmos 3 Super(32B 파라미터, Hopper/Blackwell GPU 전용) 두 버전이 공개됐으며, 텍스트·이미지·비디오·오디오·행동 등 모든 모달리티를 하나의 순전파(forward pass)에서 처리한다. 로보틱스·자율주행·스마트 공간용 합성 데이터 생성(SDG) 데이터셋과 Hugging Face Diffusers 연동도 함께 제공돼 물리적 AI 개발의 진입 장벽을 낮춘다.
- •MoT 아키텍처로 텍스트·이미지·비디오·오디오·행동 모달리티를 단일 순전파에서 처리하며, AR(자기회귀)과 DM(확산) 서브시퀀스가 joint attention으로 결합된 구조다.
- •Cosmos 3 Nano(8B)는 RTX PRO 6000 같은 워크스테이션급에서 구동되고, Cosmos 3 Super(32B)는 대규모 SDG 및 연구용으로 Hopper·Blackwell GPU에서 실행된다.
- •기존 4개 분리 모델(Predict·Transfer·Reason·Policy)을 단일 Cosmos 3로 통합해 개발 파이프라인이 단순화됐다.
- •로보틱스·자율주행·창고안전 등 6개 도메인의 합성 데이터셋(SDG)을 Hugging Face에서 오픈소스로 공개했다.
- •Hugging Face Diffusers의 Cosmos3OmniPipeline으로 Text-to-Video·Image-to-Video 등 생성 파이프라인을 몇 줄의 코드로 바로 활용할 수 있다.
Welcome NVIDIA Cosmos 3: The First Open Omni-model for Physical AI Reasoning and Action

- 1.NVIDIA Cosmos 3 오픈 공개: 8B Nano·32B Super 두 크기 Hugging Face 배포
- 2.단일 Mixture-of-Transformers(MoT) 모델로 영상 생성·물리 추론·액션 생성 동시 수행
- 3.로봇공학·자율주행·스마트 스페이스용 합성 데이터셋(SDG) 6종 및 Diffusers 통합 함께 공개
- 4.Cosmos 3 포스트트레이닝 스크립트·에이전트 스킬 GitHub 오픈소스 제공
왜 중요한가?
기존 Cosmos 시리즈가 생성·추론·정책 모델을 따로 운용해야 했던 것과 달리, Cosmos 3는 단일 모델로 영상 생성부터 로봇 액션까지 처리해 물리 AI 개발 파이프라인을 대폭 단순화한다. 오픈 웨이트로 공개되어 연구·산업 양쪽에서 즉시 활용 가능하다.
🏷️ 언급 프로젝트
전체 내용이 궁금하다면?
원문을 직접 읽어보세요