LLM의 분포 외(OOD) 정렬 실패를 탐지하기 위해 MOOD 벤치마크를 소개하고, 가드 모델만으로는 OOD 일반화가 어렵다는 점을 확인했다. 가드 모델에 마할라노비스 거리 및 퍼플렉시티 기반 OOD 탐지기를 결합하면 재현율이 39%에서 45%로 향상되었다. OOD 탐지 통합이 20배 더 큰 가드 모델 단독 사용보다 높은 재현율 향상을 달성하여, OOD 탐지가 LLM 모니터링의 핵심 구성 요소여야 함을 제안했다.
- •분포 외 정렬 실패 탐지를 위한 MOOD 벤치마크 소개: 제한된 훈련 세트와 7개의 다양한 OOD 테스트 세트 포함
- •가드 모델(안전 분류기) 단독으로는 OOD 일반화 어려움 확인, OOD 탐지기와의 결합 필요성 제시
- •마할라노비스 거리·퍼플렉시티 기반 OOD 탐지기 결합으로 재현율 39%→45% 향상
- •OOD 탐지 통합이 20배 더 큰 파라미터의 가드 모델 단독 사용보다 더 높은 재현율 향상 효과 달성
Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs
- 1.분포 외(OOD) 상황의 LLM 정렬 실패 감지를 위한 MOOD 벤치마크 도입
- 2.안전 분류기(guard model) 단독으로는 OOD 일반화가 어렵다는 한계를 실증
- 3.Guard model + Mahalanobis 거리 + 퍼플렉시티 기반 OOD 감지 조합 시 재현율 39%→45% 향상
- 4.모델 규모 20배 확장보다 OOD 감지 추가가 더 효율적인 재현율 개선 효과
왜 중요한가?
LLM 안전 모니터링에서 OOD 감지의 중요성을 실증하고, 기존 안전 분류기의 한계를 보완하는 방법론을 제시하여 신뢰할 수 있는 AI 안전 시스템 설계에 기여한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.21602v1 Announce Type: new Abstract: Many safety and alignment failures of large language models (LLMs) occur due to out-of-distribution (OOD) situations: unusual prompt or response patterns that are unforeseen by model developers. We systematically study whether LLM monitoring pipelines can detect these OOD alignment failures by introducing a benchmark called Misalignment Out Of Distribution (MOOD). It is difficult to find failures that are truly OOD for off-the-shelf models trained
전체 내용이 궁금하다면?
원문을 직접 읽어보세요