NVIDIA가 확산 언어 모델(DLM) 기반의 Nemotron-Labs Diffusion 모델군을 공개했다. 자기회귀·확산·자기추측 세 가지 생성 모드를 단일 모델에서 지원하며, 확산 모드에서 AR 모델 대비 최대 2.6배, 자기추측 모드에서 최대 6.4배의 처리량 향상을 달성했다. 3B·8B·14B 텍스트 모델과 8B 비전-언어 모델이 상업적 친화적 라이선스 하에 오픈소스로 공개되었으며, SGLang을 통한 배포를 지원한다.
- •NVIDIA가 자기회귀·확산·자기추측 세 가지 생성 모드를 단일 모델에서 지원하는 Nemotron-Labs Diffusion 모델군 공개
- •확산 모드에서 AR 대비 2.6배, 자기추측 모드에서 최대 6.4배의 처리량 향상으로 지연 민감 애플리케이션에 적합
- •Nemotron-Labs Diffusion 8B이 Qwen3 8B 대비 평균 1.2% 정확도 향상, B200 GPU에서 ~865 토큰/초 달성
- •3B·8B·14B 텍스트 모델과 8B VLM이 상업적 우호 라이선스로 오픈소스 공개, SGLang 배포 지원
Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models
- 1.NVIDIA Nemotron-Labs Diffusion은 병렬 토큰 생성으로 자동회귀 대비 최대 6.4배 빠른 추론 속도를 구현합니다
- 2.단일 모델에서 자동회귀·확산·자기추론 세 가지 모드를 지원해 배포 시 유연하게 전환 가능합니다
- 3.3B/8B/14B 텍스트 및 8B 비전-언어 모델을 상업용 라이선스로 HuggingFace에 공개했습니다
- 4.Qwen3 8B 대비 정확도 1.2% 향상, B200 GPU에서 초당 865 토큰 처리 성능을 달성했습니다
왜 중요한가?
자동회귀 LLM의 메모리 병목 문제를 확산 방식으로 해결해 GPU 활용률을 크게 높이며, 오픈 라이선스로 배포돼 고성능 추론이 필요한 프로덕션 환경에 즉시 적용 가능합니다.
🏷️ 언급 프로젝트
전체 내용이 궁금하다면?
원문을 직접 읽어보세요