🇰🇷 한국어 요약by Claude · 2026. 5. 18.

NVIDIA Cosmos Predict 2.5는 텍스트, 이미지, 비디오 클립을 조건으로 물리적으로 타당한 비디오를 생성하는 20억 파라미터 월드 모델입니다. 로봇 조작 등 특정 도메인에 적응시키기 위해 LoRA와 DoRA를 활용한 파라미터 효율적 파인튜닝 방법을 소개하며, 이를 통해 단일 GPU에서도 학습이 가능합니다. diffusers 및 accelerate 라이브러리를 사용해 DiT의 어텐션과 피드포워드 레이어에 어댑터를 주입하고, Rectified Flow 방식의 MSE 손실로 학습합니다. 92개 로봇 조작 영상으로 100에폭 파인튜닝 시 시간적 안정성, 물리적 타당성, 지시 따르기 성능이 모두 크게 향상됩니다.

•LoRA/DoRA 어댑터를 DiT의 어텐션 프로젝션(to_q, to_k, to_v) 및 피드포워드 레이어에 주입하여 기본 모델 가중치를 동결한 채 메모리 효율적 파인튜닝을 실현합니다.
•Rectified Flow 방식으로 학습하며, 첫 두 프레임을 조건으로 설정하고 나머지 프레임에 대해 노이즈-클린 속도 예측 MSE 손실을 최소화합니다.
•랭크 32 LoRA는 약 5천만 개의 학습 파라미터를 가지며, DoRA(use_dora=True)는 저랭크에서 학습 안정성을 높이지만 전반적 성능은 LoRA와 유사합니다.
•파인튜닝 후 Temporal/Cross-view Sampson 오류 감소, 물리적 타당성 점수 향상, 지시 따르기 점수 향상이 모두 확인되었으며, 8×H100 기준 약 2.5시간이 소요됩니다.

AI2026년 5월 18일AI 점수: 90%