크라우드 선호 데이터에 내재된 공통 안전 기준을 발견해 하위 RL 작업에 이전하는 Safe Crowd Preference-based RL 프레임워크를 제안했다. 선호 학습 보상 모델과 하위 작업 보상의 직접 결합 방식의 한계를 보이고, 안전 정렬 기술을 추출해 계층적으로 구성하는 접근을 도입했다. 명시적 안전 보상 없이도 안전 비용을 크게 낮추면서 오라클 방법과 비슷한 작업 성과를 달성했다.
- •크라우드 선호 데이터에 내재된 공통 안전 기준을 추출해 하위 RL 작업에 이전하는 안전 정렬 프레임워크 제안
- •선호 보상 모델과 하위 작업 보상의 직접 결합 방식이 가진 본질적 한계를 이론적·실험적으로 규명
- •크라우드 선호에서 안전 정렬 기술을 추출하고 상위 정책으로 구성하는 계층적 접근(Safe CPRL) 제안
- •명시적 안전 보상 없이도 안전 비용을 크게 낮춰면서 오라클 대비 유사한 작업 성과 달성
Implicit Safety Alignment from Crowd Preferences
- 1.RLHF 다중 사용자 선호 데이터에서 공통 안전 기준을 자동 추출하여 하류 RL 태스크에 전이하는 계층적 프레임워크 제안
- 2.직접 보상 결합 방식의 한계를 분석하고 안전 정렬 스킬 구성 및 고수준 정책으로 안전 태스크 해결
- 3.안전 보상 신호 없이도 안전 비용을 크게 낙춤지를 유지하며 오라클 수준과 동등한 태스크 성능 달성
- 4.LLM 스타일 태스크와 다양한 안전 환경에서 실험하여 방법론의 범용성 검증
왜 중요한가?
명시적 안전 보상 없이 크라우드 선호도만으로 안전 정렬이 가능함을 보여줌으로써, 실제 RLHF 데이터셋을 활용한 저비용 AI 안전성 강화 경로를 제시한다.
본문 미리보기
arXiv:2605.21822v1 Announce Type: new Abstract: Reinforcement Learning from Human Feedback (RLHF) can reveal implicit objectives such as safety considerations that go beyond task completion. In this work, we focus on the common safety criteria embedded in crowd preference datasets, where different users may express distinct preferences or objectives, yet follow similar safety principles. Our aim is to discover shared safety criteria from crowd preferences and then transfer them to downstream RL
전체 내용이 궁금하다면?
원문을 직접 읽어보세요