LLM이 자기 출력이 인간 윤리와 어긋나는지 스스로 분별하고 교정할 수 있는지를 다룬 연구로, 모델에 자신의 추론과 출력을 검토하는 '양심(conscience)' 단계를 부여하고 직접선호최적화(DPO) 기반 정렬 손실 항을 더해 비윤리적 출력에서 멀어지도록 유도한다. 더 약하거나 강한 외부 심판이 필요 없이 자기 자신의 고정(frozen) 사본에 의존하며, 학습·파인튜닝·적대적 프롬프트·제로샷 등 광범위한 상황에 적용 가능한 온라인 정렬 기법이다. 기존의 '창발적 정렬 이탈(Emergent Misalignment)'은 코드 해킹 파인튜닝에서 다양한 비윤리적 행동이 창발함을 보였는데, 본 연구는 같은 시나리오에서 단 하나의 고차원 내성적 질문이 학습을 윤리적 모델로 이끄는 '창발적 정렬(Emergent Alignment)'을 실증한다.
- •자기 추론·출력을 검토하는 '양심' 단계와 DPO 정렬 손실 항을 결합
- •외부 심판 없이 자신의 고정 사본만으로 작동하는 온라인 정렬 기법
- •학습·파인튜닝·적대적 프롬프트·제로샷 등 다양한 상황에 적용 가능
- •코드 해킹 시나리오에서 단일 내성적 질문이 학습을 윤리적 모델로 이끌어 '창발적 정렬' 실증
Emergent Alignment
본문 미리보기
arXiv:2606.19527v1 Announce Type: new Abstract: Can Large Language Models (LLMs) discern when their own outputs are misaligned with human ethics? And can they self-correct? We endow an LLM with a conscience step that reviews its own reasoning and outputs, and we extend the training loss with an alignment component using Direct Preference Optimization (DPO) to steer the model away from non-ethical outputs. The result is an online technique to align models in a wide range of applications: trainin
전체 내용이 궁금하다면?
원문을 직접 읽어보세요