🇰🇷 한국어 요약by Claude · 2026. 5. 23.

NVIDIA가 확산 언어 모델(DLM) 기반의 Nemotron-Labs Diffusion 모델군을 공개했다. 자기회귀·확산·자기추측 세 가지 생성 모드를 단일 모델에서 지원하며, 확산 모드에서 AR 모델 대비 최대 2.6배, 자기추측 모드에서 최대 6.4배의 처리량 향상을 달성했다. 3B·8B·14B 텍스트 모델과 8B 비전-언어 모델이 상업적 친화적 라이선스 하에 오픈소스로 공개되었으며, SGLang을 통한 배포를 지원한다.

•NVIDIA가 자기회귀·확산·자기추측 세 가지 생성 모드를 단일 모델에서 지원하는 Nemotron-Labs Diffusion 모델군 공개
•확산 모드에서 AR 대비 2.6배, 자기추측 모드에서 최대 6.4배의 처리량 향상으로 지연 민감 애플리케이션에 적합
•Nemotron-Labs Diffusion 8B이 Qwen3 8B 대비 평균 1.2% 정확도 향상, B200 GPU에서 ~865 토큰/초 달성
•3B·8B·14B 텍스트 모델과 8B VLM이 상업적 우호 라이선스로 오픈소스 공개, SGLang 배포 지원

AI2026년 5월 23일AI 점수: 95%

Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models

출처:HuggingFace Blog

✨ AI 인사이트

🧑‍💻 개발자💼 투자자

1.NVIDIA Nemotron-Labs Diffusion은 병렬 토큰 생성으로 자동회귀 대비 최대 6.4배 빠른 추론 속도를 구현합니다
2.단일 모델에서 자동회귀·확산·자기추론 세 가지 모드를 지원해 배포 시 유연하게 전환 가능합니다
3.3B/8B/14B 텍스트 및 8B 비전-언어 모델을 상업용 라이선스로 HuggingFace에 공개했습니다
4.Qwen3 8B 대비 정확도 1.2% 향상, B200 GPU에서 초당 865 토큰 처리 성능을 달성했습니다

💡

왜 중요한가?

자동회귀 LLM의 메모리 병목 문제를 확산 방식으로 해결해 GPU 활용률을 크게 높이며, 오픈 라이선스로 배포돼 고성능 추론이 필요한 프로덕션 환경에 즉시 적용 가능합니다.

🏷️ 언급 프로젝트

Nemotron-Labs Diffusion SGLang

전체 내용이 궁금하다면?

원문을 직접 읽어보세요

원문 보기

#확산 언어 모델#텍스트 생성#NVIDIA#Nemotron#추론 속도

Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models

관련 글

Advancing next-gen AI with materials science innovation

PlanFlip: Attacking Multi-Agent LLM Systems via Planning-Phase Prompt Injection

Democratizing AI with Small Language Models: Structured Benchmarking and Parameter-Efficient Fine-Tuning for Local Deployment

Generative Ontology Induction: Domain-Agnostic Schema Discovery from Document Corpora Using Large Language Models