CAST는 GRPO 기반 강화학습(RLVR)을 위한 정답 없는 자기 증류(self-distillation) 방법으로, stop-gradient 자기 교사를 활용해 궤적 정확도에 따른 토큰 수준 이점(advantage)을 형성한다. 기존 OPSD와 달리 참조 해답 조건부 교사 점수가 필요 없으며, 모든 궤적이 정답이거나 오답인 영-분산 그룹에도 경계 부호 제한 기저 이점을 할당해 제로 기울기 문제를 해결한다. 수학적 추론 실험에서 경량 검증자 기반 궤적 수준 목표를 유지하면서 RLVR 학습을 향상시켰다.
- •GRPO의 희소 감독과 영-분산 그룹 문제를 해결하기 위해 정답 없는 자기 교사 방식의 CAST를 제안한다.
- •stop-gradient 자기 교사가 양방향 로컬 이점 부호 반전으로 올바른 궤적의 교사-음수 토큰과 틀린 궤적의 교사-양수 토큰을 모두 활용한다.
- •참조 해답 조건부 교사 점수가 불필요해 순수 자기 지도 학습이 가능하며 기존 자기 증류 RLVR 방식들의 제약을 극복한다.
- •수학적 추론 벤치마크에서 RLVR 학습 성능을 개선하면서도 경량 검증자 기반 궤적 수준 목표를 유지한다.
CAST: Non-Privileged Clipped Asymmetric Self-Teaching with Advantage Flipping for GRPO
본문 미리보기
arXiv:2606.00172v1 Announce Type: new Abstract: Reinforcement learning with verifiable rewards (RLVR), especially Group Relative Policy Optimization (GRPO), has been widely used to improve reasoning in large language models. However, outcome-level rewards provide only sparse supervision, and group-relative advantages vanish when all sampled trajectories for a prompt are either correct or incorrect. On-Policy Self-Distillation (OPSD) offers dense token-level guidance, but its token preferences a
전체 내용이 궁금하다면?
원문을 직접 읽어보세요