멀티턴 에이전트 학습에서 중간 단계별 기여도(credit assignment)를 파악하기 어려운 문제를 다룬다. HERO는 각 롤아웃 이후 다음 환경 관측을 국소적으로 정렬된 피드백으로 활용하는 사후(hindsight) 자기증류 프레임워크로, 관측을 행동의 필요성·타당성·실패 원인을 담은 턴 단위 진단으로 변환한다. TauBench와 WebShop 실험에서 환경 피드백만 쓰는 자기증류나 GRPO보다 과제 성공률을 높이고 불필요한 턴을 줄였으며, 특히 학습 턴 예산이 제한돼 성공 롤아웃이 드물고 GRPO의 보상 대비 신호가 약한 상황에서 효과가 컸다. 희소 보상 환경에서 조밀한 턴 단위 지도를 제공하는 실용적 대안을 제시한다.
- •다음 환경 관측을 국소 정렬 피드백으로 삼아 턴 단위 진단을 생성하는 사후 자기증류 프레임워크 HERO 제안
- •각 관측을 행동의 필요성·타당성·실패 원인을 담은 압축 진단으로 변환
- •TauBench·WebShop에서 환경 피드백 전용 자기증류 및 GRPO 대비 성공률 향상, 불필요한 턴 감소
- •학습 턴 예산이 제한돼 성공 롤아웃이 드문 환경에서 특히 효과적
HERO: Hindsight-Enhanced Reflection from Environment Observations for Agentic Self-Distillation
- 1.다중턴 에이전트의 중간턴 신용할당 문제를 다음 환경 관측로 해결하는 후견 자기증류 프레임워크 HERO 제안
- 2.각 롤아웃 후 상호작용을 성찰해 관측을 행동의 필요성·유효성·실패 원인 등 턴 단위 진단으로 변환
- 3.특권 피드백과 학생의 현재 결정 맥락 간 불일치가 순진한 확장 시 성능 저하를 유발함을 규명
- 4.TauBench·WebShop에서 환경피드백 자기증류·GRPO 대비 성공률 향상, 불필요 턴 감소
왜 중요한가?
강화학습이 보통 최종 결과로만 보상해 다중턴에서 어느 행동이 기여했는지 가리기 어려운 신용할당 난제를, 국소 정렬된 관측 기반 진단으로 완화한다. 특히 성공 롤아웃이 드물고 GRPO 보상 대비 신호가 약한 제한된 학습 예산에서 효과적이라 실전 에이전트 학습 효율을 높인다.
본문 미리보기
arXiv:2606.11559v1 Announce Type: new Abstract: Reinforcement learning typically improves multi-turn agent capabilities through the terminal outcome of the trajectories, which makes it difficult to determine credit assignments for each intermediate turns. Recent on-policy self-distillation methods offer a promising alternative by converting privileged feedback into dense token-level supervision through a self-teacher. Our study is motivated by the unexpected performance degradation observed whe
전체 내용이 궁금하다면?
원문을 직접 읽어보세요