이 연구는 유익한 행동(beneficial behavior)에 대한 강화학습이 훈련 분포를 넘어 광범위하고 지속적인 정렬 일반화를 만들어낼 수 있는지 검증한다. 연구진은 진실성·공정성·위험 인식·교정가능성 같은 특성을 측정·훈련하기 위해 건강·과학·교육 등 다양한 도메인의 현실적 상황 데이터셋을 구축하고, 이로 RL을 수행한 뒤 50개 이상의 독립 벤치마크로 평가했다. 그 결과 연산량을 맞춘 베이스라인 대비 분포 외(OOD) 벤치마크의 80% 이상에서 성능이 향상됐다. 특히 건강 도메인에만 한정한 개입이 비건강 정렬 평가 전반(보상 해킹·기만·일반 오정렬 감소)으로 전이됐고, 적대적 프롬프트와 유해 미세조정에 대한 저항성 등 정렬 지속성도 개선됐다. 현실적 도메인에서의 유익 행동 RL이 인간 번영과 더 견고하게 정렬된 모델을 만들 수 있음을 시사한다.
- •진실성·공정성·위험 인식·교정가능성 등 유익 특성을 다양한 도메인 데이터셋으로 RL 훈련
- •연산량 맞춘 베이스라인 대비 분포 외 벤치마크의 80% 이상에서 성능 향상
- •건강 도메인 한정 개입이 비건강 정렬 평가 전반으로 전이(보상 해킹·기만 감소)
- •적대적 프롬프트·유해 미세조정에 대한 저항성 등 정렬 지속성 개선
- •50개 이상 독립 벤치마크로 광범위한 OOD 정렬 일반화 검증
Reinforcement Learning Towards Broadly and Persistently Beneficial Models
본문 미리보기
arXiv:2606.24014v1 Announce Type: new Abstract: As AI systems are deployed across increasingly diverse and high-stakes settings, model alignment must generalize beyond the tasks and domains seen during training. This is especially important for reinforcement learning (RL), which can introduce unexpected misalignment through reward hacking, deception, or other unintended strategies. We study whether RL on beneficial behavior, instantiated in realistic domains, can produce broad and persistent al
전체 내용이 궁금하다면?
원문을 직접 읽어보세요