LLM 파인튜닝 중 안전 정렬이 소수의 양성 샘플만으로도 급격히 저하될 수 있음을 파라미터 다이나믹스 관점에서 규명한 연구이다. 양성 파인튜닝이 파라미터를 위험 정렬 방향으로 누적 이동시키는 핵심 메커니즘을 발견하고, 샘플 수준 안전 저하 정량화(SQSD) 방법을 제안한다. SQSD는 파라미터 업데이트의 위험-안전 방향 투영 차이를 측정해 연속적인 위험 점수를 산출하며, 다양한 모델 아키텍처와 데이터셋에서 강한 전이 가능성을 보였다.
- •LLM의 안전 정렬은 소수의 양성 샘플 파인튜닝만으로도 수백만 개의 선호 학습 예제에서 배운 안전 행동이 지워질 만큼 취약하다.
- •양성 파인튜닝이 파라미터를 위험 정렬 방향으로 누적 이동시키는 핵심 메커니즘이 안전 저하를 유발한다.
- •SQSD는 파라미터 업데이트의 위험-안전 방향 투영 차이를 측정해 각 학습 샘플에 연속적 위험 점수를 부여한다.
- •다양한 모델 아키텍체, 파라미터 규모, 파라미터 효율적 방법에 걸쳐 강한 전이 가능성을 보인다.
From Parameter Dynamics to Risk Scoring : Quantifying Sample-Level Safety Degradation in LLM Fine-tuning
- 1.LLM 파인류닝 시 안전 정렬 저하의 핵심 메커니즘 발견: 파라미터가 위험 방향으로 누적 드리프트
- 2.샘플별 안전 저하 정량화 방법 SQSD 제안, 각 학습 샘플의 파인류닝 위험 점수 계산
- 3.다양한 모델과 데이터셋에서 SQSD의 효과적 위험 정량화 및 강한 전이 가능성 입증
- 4.로라(LoRA) 등 파라미터 효율적 방법 및 다양한 모델 아키텍처에 적용 가능
왜 중요한가?
소수의 양성 샘플만으로도 안전 정렬이 무너질 수 있는 취약성을 파라미터 동역학으로 설명하며, 안전한 파인튜닝 실천에 직접 활용 가능한 가이드라인을 제공한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.04572v1 Announce Type: new Abstract: Safety alignment of Large Language Models (LLMs) is extremely fragile, as fine-tuning on a small number of benign samples can erase safety behaviors learned from millions of preference examples. Existing studies attempt to explain this phenomenon by comparing parameters and hidden states before and after fine-tuning, but overlook their dynamic evolution during fine-tuning. In this paper, we uncover a critical mechanism underlying safety degradatio
전체 내용이 궁금하다면?
원문을 직접 읽어보세요