From Parameter Dynamics to Risk Scoring : Quantifying Sample-Level Safety Degradation in LLM Fine-tuning | AIChainDay

🇰🇷 한국어 요약by Claude · 2026. 5. 7.

LLM 파인튜닝 중 안전 정렬이 소수의 양성 샘플만으로도 급격히 저하될 수 있음을 파라미터 다이나믹스 관점에서 규명한 연구이다. 양성 파인튜닝이 파라미터를 위험 정렬 방향으로 누적 이동시키는 핵심 메커니즘을 발견하고, 샘플 수준 안전 저하 정량화(SQSD) 방법을 제안한다. SQSD는 파라미터 업데이트의 위험-안전 방향 투영 차이를 측정해 연속적인 위험 점수를 산출하며, 다양한 모델 아키텍처와 데이터셋에서 강한 전이 가능성을 보였다.

•LLM의 안전 정렬은 소수의 양성 샘플 파인튜닝만으로도 수백만 개의 선호 학습 예제에서 배운 안전 행동이 지워질 만큼 취약하다.
•양성 파인튜닝이 파라미터를 위험 정렬 방향으로 누적 이동시키는 핵심 메커니즘이 안전 저하를 유발한다.
•SQSD는 파라미터 업데이트의 위험-안전 방향 투영 차이를 측정해 각 학습 샘플에 연속적 위험 점수를 부여한다.
•다양한 모델 아키텍체, 파라미터 규모, 파라미터 효율적 방법에 걸쳐 강한 전이 가능성을 보인다.

AI2026년 5월 7일AI 점수: 95%

From Parameter Dynamics to Risk Scoring : Quantifying Sample-Level Safety Degradation in LLM Fine-tuning

출처:arXiv cs.AI

✨ AI 인사이트

🧑‍💻 개발자

1.LLM 파인류닝 시 안전 정렬 저하의 핵심 메커니즘 발견: 파라미터가 위험 방향으로 누적 드리프트
2.샘플별 안전 저하 정량화 방법 SQSD 제안, 각 학습 샘플의 파인류닝 위험 점수 계산
3.다양한 모델과 데이터셋에서 SQSD의 효과적 위험 정량화 및 강한 전이 가능성 입증
4.로라(LoRA) 등 파라미터 효율적 방법 및 다양한 모델 아키텍처에 적용 가능

💡

왜 중요한가?

소수의 양성 샘플만으로도 안전 정렬이 무너질 수 있는 취약성을 파라미터 동역학으로 설명하며, 안전한 파인튜닝 실천에 직접 활용 가능한 가이드라인을 제공한다.

🏷️ 언급 프로젝트

SQSD

본문 미리보기

arXiv:2605.04572v1 Announce Type: new Abstract: Safety alignment of Large Language Models (LLMs) is extremely fragile, as fine-tuning on a small number of benign samples can erase safety behaviors learned from millions of preference examples. Existing studies attempt to explain this phenomenon by comparing parameters and hidden states before and after fine-tuning, but overlook their dynamic evolution during fine-tuning. In this paper, we uncover a critical mechanism underlying safety degradatio

전체 내용이 궁금하다면?

원문을 직접 읽어보세요

원문 보기

#LLM 안전성#파인튜닝 위험#안전 정렬#파라미터 분석#리스크 스코어링

8시간 전

Thousand Token Wood: shipping a multi-agent economy on a 3B model

🏢공식HuggingFace Blog

원문

1일 전

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

arXiv:2606. 05384v1 Announce Type: new Abstract: LLM-as-judge evaluation is widely used in benchmarking pipelines, where model outputs are compared and ranked using automated evaluators. These pipelines typically assume that judgments are stable properties of fixed inputs. We show that this assumpti

📰미디어arXiv cs.AI

원문

From Parameter Dynamics to Risk Scoring : Quantifying Sample-Level Safety Degradation in LLM Fine-tuning

본문 미리보기

관련 글

Thousand Token Wood: shipping a multi-agent economy on a 3B model

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

An interpretable and trustworthy AI framework for large-scale longitudinal structure-pain association studies using data from the Osteoarthritis Initiative (OAI)

SentinelBench: A Benchmark for Long-Running Monitoring Agents