NVIDIA Cosmos Predict 2.5는 텍스트, 이미지, 비디오 클립을 조건으로 물리적으로 타당한 비디오를 생성하는 20억 파라미터 월드 모델입니다. 로봇 조작 등 특정 도메인에 적응시키기 위해 LoRA와 DoRA를 활용한 파라미터 효율적 파인튜닝 방법을 소개하며, 이를 통해 단일 GPU에서도 학습이 가능합니다. diffusers 및 accelerate 라이브러리를 사용해 DiT의 어텐션과 피드포워드 레이어에 어댑터를 주입하고, Rectified Flow 방식의 MSE 손실로 학습합니다. 92개 로봇 조작 영상으로 100에폭 파인튜닝 시 시간적 안정성, 물리적 타당성, 지시 따르기 성능이 모두 크게 향상됩니다.
- •LoRA/DoRA 어댑터를 DiT의 어텐션 프로젝션(to_q, to_k, to_v) 및 피드포워드 레이어에 주입하여 기본 모델 가중치를 동결한 채 메모리 효율적 파인튜닝을 실현합니다.
- •Rectified Flow 방식으로 학습하며, 첫 두 프레임을 조건으로 설정하고 나머지 프레임에 대해 노이즈-클린 속도 예측 MSE 손실을 최소화합니다.
- •랭크 32 LoRA는 약 5천만 개의 학습 파라미터를 가지며, DoRA(use_dora=True)는 저랭크에서 학습 안정성을 높이지만 전반적 성능은 LoRA와 유사합니다.
- •파인튜닝 후 Temporal/Cross-view Sampson 오류 감소, 물리적 타당성 점수 향상, 지시 따르기 점수 향상이 모두 확인되었으며, 8×H100 기준 약 2.5시간이 소요됩니다.
Fine-Tuning NVIDIA Cosmos Predict 2.5 with LoRA/DoRA for Robot Video Generation
- 1.NVIDIA Cosmos Predict 2.5를 LoRA/DoRA로 파인튜닝해 특정 로봇 조작 도메인에 적응시키는 방법 제시
- 2.단일 GPU에서도 학습 가능하며, 기반 모델 망각 없이 소형 어댑터 파일로 도메인 이동이 가능함
- 3.파인튜닝 후 Sampson 오류 감소, 물리적 타당성·지시 추종 점수 향상 등 정량적 성능 개선 확인
- 4.LoRA r=32 기준 약 5000만 파라미터만 학습, 8×H100으로 2.5시간 내 유의미한 성능 달성
왜 중요한가?
실제 로봇 궤적 수집의 비용·시간 문제를 합성 비디오 생성으로 대체할 수 있어, 로봇 학습 데이터 확보 전략에 중요한 시사점을 제공합니다.
🏷️ 언급 프로젝트
전체 내용이 궁금하다면?
원문을 직접 읽어보세요