안전 정렬된 언어 모델의 거부 행동을 잠재 공간 조작으로 억제하는 기존 방법들을 선형 프로브에 대한 최솟값 신뢰도 회피 공격으로 재해석했다. 기존 차이-평균값 방향 절제는 결정 경계까지만 도달하므로, 표현을 경계 너머 순응 영역까지 밀어내는 제어된 잠재 공간 회피 공격(CLEE)을 새로 제안했다. 15개의 명령어 튜닝·멀티모달·추론 모델에서 기존 기준선을 능가하는 최첨단 공격 성공률을 달성했다.
- •기존 거부 억제 방법을 선형 프로브에 대한 최솟값 신뢰도 잠재 공간 회피 공격으로 수학적으로 재해석
- •기존 방법이 결정 경계까지만 도달하는 한계를 극복하기 위해 경계 너머 순응 영역으로 표현을 밀어내는 CLEE 공격 제안
- •15개 명령어 튜닝·멀티모달·추론 모델에서 기존 거부 절제 기준선 및 전문 탈옥 공격 능가
- •잠재 공간 표현 스티어링으로 모델의 거부 행동을 체계적으로 억제할 수 있음을 실증
Latent-space Attacks for Refusal Evasion in Language Models
- 1.LLM 거부 동작을 내부 잘렉트 공간 조작으로 억제하는 잠재 공간 회피 공격 데쿠 방법론 제시
- 2.거부 방향 제거(difference-in-means ablation)는 결정 경계로의 최소 신뢰도 회피 공격임을 수학적으로 난는 계로지를 해석
- 3.결정 경계를 넘어 허용 영역으로 표현을 밀어넣는 최적화된 신뢰독 제어 잠재 공간 회피(CLE) 공격 제안
- 4.15개 지시-튜닝·멀티모달·추론 모델에서 SOTA 공격 성공률 달성, 기존 방법들을 마지막 종장
왜 중요한가?
안전 정렬된 LLM의 거부 메커니즘이 내부 표현 수준에서 어떻게 우회될 수 있는지를 이론적으로 정형화함으로써, 더 견고한 안전 정렬 방법 연구의 필요성과 방향을 제시한다.
본문 미리보기
arXiv:2605.21706v1 Announce Type: new Abstract: Safety-aligned language models are trained to refuse harmful requests, yet refusal behavior can be suppressed by steering their internal representations. Existing methods do so by ablating a refusal direction from model activations, aiming to remove refusal from the model's residual stream. Despite their empirical success, these methods lack a principled account of the latent-space transformation they induce and why it suppresses refusal. In this
전체 내용이 궁금하다면?
원문을 직접 읽어보세요