선호 기반 사후학습에서 인간 선호 라벨은 완성문 추가 생성보다 훨씬 비싸므로, 같은 라벨링 예산으로 더 많은 완성문 풀을 만들되 가장 정보적인 비교쌍만 라벨링하는 전략이 유리하다. 본 논문은 어떤 쌍을 비교해야 하는지를 표본설계(sampling-design) 문제로 정식화하고, 선호 기반 사후학습 목적함수 하 최종 정책 품질로 설계를 평가한다. 직접선호최적화(DPO)에 이 틀을 적용해 라벨 쌍 선택이 학습을 거쳐 정책 성능으로 전파되는 과정을 분석했으며, DPO 학습 정책의 최적성 격차에 대한 상·하한이 일치함을 증명한다. 이 한계는 비교 선택이 단일 설계 의존 정보 행렬을 통해 파라미터 추정 오차와 정책 준최적성에 연결됨을 보여, 예산 제약 비교 큐레이션의 명시적 최적화 기준을 도출한다. 합성·언어모델 사후학습 벤치마크 실험에서 제안 설계가 통상 휴리스틱보다 표본 효율을 일관되게 높였다.
- •더 큰 완성문 풀에서 정보적인 비교쌍만 라벨링하는 표본설계 문제로 정식화
- •DPO 학습 정책의 최적성 격차에 대한 일치하는 상·하한 증명
- •비교 선택이 단일 설계 의존 정보 행렬을 통해 추정 오차·정책 준최적성에 연결
- •합성·언어모델 벤치마크에서 기존 휴리스틱보다 표본 효율 일관 개선
Which Pairs to Compare for LLM Post-Training?
본문 미리보기
arXiv:2606.19607v1 Announce Type: new Abstract: Preference-based post-training has become a central paradigm for aligning language models. A common data-collection strategy is to generate a small set of completions for each prompt and label the resulting comparison pairs. However, human preference labels are often much more expensive than generating additional completions, suggesting a different use of the same labeling budget: generate a larger pool of completions, but label only the most info
전체 내용이 궁금하다면?
원문을 직접 읽어보세요