🇰🇷 한국어 요약by Claude · 2026. 6. 24.
NVIDIA NeMo AutoModel은 HuggingFace Transformers v5 위에 Expert Parallelism, DeepEP 융합 all-to-all 디스패치, TransformerEngine 커널을 더해 MoE 모델 파인튜닝을 가속하는 오픈 라이브러리다. import 한 줄만 바꾸면 동일한 from_pretrained() API로 Transformers v5 대비 학습 처리량을 3.4~3.7배 높이고 GPU 메모리를 29~32% 절감한다. 단일 노드(H100 8장) 벤치마크에서 Qwen3-30B-A3B는 3.69배(TPS/GPU 3,075→11,340), Nemotron 3 Nano 30B-A3B는 3.36배 향상됐으며, v5가 메모리 부족으로 실행조차 못 하는 550B 모델도 16노드에서 풀 파인튜닝할 수 있다. Expert Parallelism이 전문가 가중치를 GPU에 분산해 메모리 한계를 넘는 대규모 MoE 학습을 가능케 하는 점이 핵심이다.
- •import 한 줄 교체만으로 기존 HF 코드 수정 없이 Transformers v5 대비 학습 처리량 3.4~3.7배, GPU 메모리 29~32% 절감
- •Qwen3-30B-A3B는 EP=8에서 TPS/GPU 3,075→11,340(3.69배), 메모리 68.2→48.1GiB(-29%) 기록
- •Nemotron 3 Nano 30B-A3B는 v5 대비 3.36배 향상, 메모리 62.1→42.5GiB(-32%)
- •Expert Parallelism이 전문가 가중치를 GPU별 1/8로 샤딩해 v5가 OOM 나는 550B 모델을 16노드(128 GPU)에서 풀 파인튜닝 가능
- •속도 향상은 EP의 메모리 절감, DeepEP의 통신·연산 융합, TransformerEngine 커널 세 요소에서 나오며, 저장 시 vLLM·SGLang이 읽는 표준 HF 체크포인트 출력
AI2026년 6월 24일
Accelerating Transformers Fine-Tuning with NVIDIA NeMo AutoModel
출처:HuggingFace Blog
전체 내용이 궁금하다면?
원문을 직접 읽어보세요
공유: