RODS: Reward-Driven Online Data Synthesis for Multi-Turn Tool-Use Agents
- 1.RODS: 다중턴 도구사용 RL의 정보성 샘플 고갈 문제를 온라인 데이터 합성으로 해결
- 2.GRPO 그래디언트가 보상 분산이 큰 경계 샘플에 집중된다는 점(Popoviciu 상한) 활용
- 3.진행 보상 분산을 추가 추론 없는 경계 탐지기로 재활용해 신규 변형 합성
- 4.400개 시드로 17K 오프라인 파이프라인급 성능을 약 20배 적은 궤적으로 달성
왜 중요한가?
정적 데이터셋에서 정책이 발전할수록 정보성 샘플이 고갈되는 다중턴 도구사용 RL의 핵심 병목을, 롤아웃 비용만으로 경계 샘플을 찾아 재생성하는 폐루프로 해결해 데이터 효율을 크게 끌어올린다.
본문 미리보기
arXiv:2606.19047v1 Announce Type: new Abstract: Multi-turn tool-use RL is bottlenecked by the rapid depletion of informative samples in static datasets. We observe that the gradient signal in GRPO concentrates on tasks with the highest rollout reward variance, a consequence of the Popoviciu upper bound. Consequently, samples near the agent's capability boundary -- where successes and failures are roughly balanced -- contribute disproportionately large policy gradients. As training progresses, t
전체 내용이 궁금하다면?
원문을 직접 읽어보세요