LLM 추론 강화학습에서 탐색의 다양성이 진짜 추론에서 비롯됐는지, 아니면 암기 패턴·지름길의 변주인지 구분하지 않는 기존 방식의 한계를 지적한 논문이다. 두 경우를 똑같이 보상하면 탐색이 추론 개선이 아니라 암기로 향할 수 있다. 저자들은 정책 내부의 '추론-암기 방향'에 탐색을 정박시키는 방향 인지 강화학습 프레임워크 DiRL을 제안했다. DiRL은 모델 표현에서 이 방향을 추출하고, 방향 가중 그래디언트 특징으로 롤아웃 갱신을 특성화한 뒤, 추론 정렬 탐색은 증폭하고 암기 정렬 변주는 억제하도록 보상을 설계한다. 표준 GRPO에 자연스럽게 통합되며, 수학·일반 추론 벤치마크에서 기존 탐색 기법 대비 유의미한 향상을 보였다.
- •탐색 다양성이 진짜 추론인지 암기 변주인지 구분하지 않는 기존 탐색의 한계 지적
- •정책 내부의 추론-암기 방향에 탐색을 정박시키는 DiRL 프레임워크 제안
- •모델 표현에서 방향을 추출해 추론 정렬 탐색은 증폭·암기 정렬 변주는 억제
- •표준 GRPO에 자연스럽게 통합 가능
- •수학·일반 추론 벤치마크에서 기존 기법 대비 유의미한 성능 향상
Reasoning or Memorization? Direction-Aware Diversity Exploration in LLM Reinforcement Learning
본문 미리보기
arXiv:2606.10346v1 Announce Type: new Abstract: Reinforcement learning has become a key paradigm for eliciting reasoning abilities in large language models, where exploration is crucial for discovering effective solution trajectories. Existing exploration methods typically encourage diversity in semantic or gradient spaces, without distinguishing what drives this diversity. A trajectory may appear novel because it follows a new reasoning process, or because it varies memorized patterns and shor
전체 내용이 궁금하다면?
원문을 직접 읽어보세요