NVIDIA Nemotron 3 Nano Omni — 문서·오디오·비디오 에이전트용 long-context 멀티모달 인텔리전스.
Introducing NVIDIA Nemotron 3 Nano Omni: Long-Context Multimodal Intelligence for Documents, Audio and Video Agents
- 1.NVIDIA가 문서·오디오·비디오 에이전트를 위한 멀티모달 AI 모델 Nemotron 3 Nano Omni 공개
- 2.하이브리드 Mamba-Transformer-MoE 백본, C-RADIOv4-H 비전 인코더, Parakeet 오디오 인코더 통합 구조
- 3.문서 이해, 음성 인식, 영상 분석, GUI 에이전트 컴퓨터 사용 등 5가지 워크로드 대상
- 4.경쟁 모델 대비 최대 9배 높은 처리량, BF16/FP8/NVFP4 체크포인트 오픈소스 제공
왜 중요한가?
NVIDIA의 Nemotron 3 Nano Omni는 텍스트·이미지·오디오·비디오를 하나의 모델에서 통합 처리하는 오픈웨이트 옵니 모델로, 엔터프라이즈 문서 분석과 에이전트 시스템 구축의 효율성을 크게 높일 수 있다.
🏷️ 언급 프로젝트
전체 내용이 궁금하다면?
원문을 직접 읽어보세요