Scaling Trends for Lie Detector Oversight in Preference Learning
- 1.거짓탐지기 기반 감독(SOLiD)을 대형 모델로 확장한 스케일링 연구
- 2.미탐지 기만 행동이 1B 모델 34%에서 405B 모델 14%로 감소
- 3.탐지기 TPR 99%에서 고비용 인간 라벨러를 미세조정 단계에서 완전 제거 가능
- 4.탐지기 학습과 선호 학습 데이터의 분포 차이에 민감해 오탐지율 급등 위험
왜 중요한가?
LLM의 기만 행동을 값싸게 감시하는 것이 정렬의 핵심 과제인데, 이 연구는 모델이 커질수록 거짓탐지 감독이 오히려 잘 작동해(미탐지 34→14%) 값비싼 인간 검수를 제거할 수 있음을, 다만 분포 이동 취약성은 남는다는 점을 실증했다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2607.01567v1 Announce Type: new Abstract: Deceptive behavior in LLMs is costly to monitor and prevent, motivating approaches such as Scalable Oversight via Lie Detectors (SOLiD) (Cundy & Gleave, 2025), which uses lie detectors to identify responses for review by high-cost labelers. In this paper, we scale SOLiD to larger models and evaluate it in more diverse and realistic preference-learning settings. We find favorable scaling: undetected deception drops from 34% for 1B-parameter models
전체 내용이 궁금하다면?
원문을 직접 읽어보세요