TRL에 병합된 PR이 비동기 RL 훈련의 가중치 동기화 비용을 획기적으로 줄였다. 연속된 RL 옵티마이저 스텝 사이에 bf16 가중치의 99% 이상이 비트 단위로 동일하다는 성질을 활용해, 변경된 요소만 희소 safetensors 파일로 인코딩한 뒤 Hugging Face Bucket을 통해 vLLM에 전달한다. Qwen3-0.6B 기준 스텝당 전송 데이터가 1.2 GB에서 20~35 MB로 줄었고, 추론 중단 시간도 약 1.1초로 대폭 감소했다. 훈련 서버와 추론 서버가 같은 클러스터에 있을 필요 없이 Hub 버킷만 공유하면 완전 분리 훈련이 가능해, GPU 1개와 HF 계정만으로도 진정한 비동기 분산 RL 훈련을 구현할 수 있다.
- •bf16 가중치의 99% 이상은 연속 RL 스텝 사이에 값이 변하지 않으며, 학습률 약 3×10⁻⁶에서 Adam 업데이트 크기가 bf16 양자화 임계값보다 작기 때문이라고 PULSE 논문이 수학적으로 증명했다.
- •변경된 요소만 (indices, values) 쌍으로 인코딩한 희소 safetensors 파일을 HF Bucket에 업로드해, Qwen3-0.6B 기준 스텝당 전송량을 1.2 GB에서 20~35 MB로 약 50배 축소했다.
- •vLLM은 --worker-extension-cls 플래그 하나로 DeltaWeightTransferEngine을 연결하며 vLLM 포크 없이 동작하고, 추론 중단 시간이 동기당 약 1.1초에 그쳤다.
- •훈련·추론·환경 서버가 각기 다른 머신(HF Space 포함)에 분리되어도 Hub 버킷 하나만 공유하면 되므로, RDMA·전용 클러스터 없이 단일 GPU로도 완전 비동기 분산 RL 훈련이 가능하다.
- •1T 파라미터 모델 기준 전체 스냅샷 1024 GiB 대비 델타는 약 20 GiB(50× 축소)로, 인터넷 환경에서도 실용적인 크로스 클라우드 가중치 동기화가 실현된다.
Shipping a Trillion Parameters With a Hub Bucket: Delta Weight Sync in TRL
- 1.TRL에 스파스 델타 가중치 동기화 PR 추가 — Qwen3-0.6B 기준 스텝당 전송량 1.2GB→20~35MB(약 96% 감소)
- 2.bf16 RL 학습률(~3×10⁻⁶)에서 Adam 업데이트가 bf16 ULP 임계값 미만으로, 매 스텝 >99% 가중치가 비트 단위 불변
- 3.HF Hub Bucket을 공유 객체 스토리지로 활용해 트레이너·vLLM 간 직접 네트워크 연결 없이 가중치 전달 가능
- 4.트레이너·vLLM Space·Wordle 환경을 별도 박스에 두고 Hub 버킷 하나로 연결하는 완전 분리형 학습 시연 성공
왜 중요한가?
Async RL 학습의 핵심 병목이던 가중치 동기화를 스파스 인코딩+객체 스토리지 조합으로 해결함으로써, 단일 GPU와 HF 계정만으로도 클러스터·RDMA 없이 분산 RL 학습이 가능해졌다. 1T 파라미터 모델에서도 NCCL 풀 브로드캐스트 대비 50~130× 전송 절감이 수학적으로 보장되며, 멀티리전 추론 플릿 확장도 현실적인 아키텍처가 됐다.
전체 내용이 궁금하다면?
원문을 직접 읽어보세요