Planner-Centric Reinforcement Learning for Deep Research with Structure-Aware Reward | AIChainDay

🇰🇷 한국어 요약by Claude · 2026. 6. 1.

딥 리서치 태스크에서 계획과 실행을 분리해 각각에 보상을 부여하는 DecomposeR 프레임워크를 제안했다. 리서치 플랜을 타입화된 방향성 비순환 그래프(DAG)로 표현해 계획을 명시적·구조적으로 만들고, Qwen3-8B 모델을 플래너 강화학습(그래프 구조·쿼리 분해 최적화) → 응답자 강화학습(브랜치 수준 실행·최종 합성) 2단계로 학습한다. 기존의 단답형 QA 프록시나 단일 긴 궤적 최적화와 달리 플래너 토큰과 구조 컴포넌트에 직접 보상을 부여해 세밀한 최적화가 가능하다. 인기 있는 장문 벤치마크에서 비교 가능한 오픈 베이스라인 대비 5.1~8.0포인트 향상을 달성했다.

•리서치 플랜을 타입화된 DAG로 표현해 계획과 실행을 명시적으로 분리하고 각 단계에 독립적 보상을 부여해 신용 할당(credit assignment) 문제를 해결했다.
•Qwen3-8B 기반 DecomposeR-8B가 장문 벤치마크에서 오픈 베이스라인 대비 5.1~8.0포인트 향상을 달성했다.
•플래너 RL + 응답자 RL의 2단계 학습이 엔드투엔드 학습 대비 계획·실행 양쪽 품질을 동시에 높이는 효과를 보였다.

AI2026년 6월 1일AI 점수: 93%

Planner-Centric Reinforcement Learning for Deep Research with Structure-Aware Reward

출처:arXiv cs.AI

✨ AI 인사이트

🧑‍💻 개발자

1.딥 리서치 태스크를 위해 연구 계획을 타입 DAG로 표현하고 플래너-답변자 2단계 RL로 훈련하는 DecomposeR 제안
2.Qwen3-8B 기반 DecomposeR-8B가 유사 규모 오픈 기준 대비 장문 벤치마크에서 5.1~8.0점 향상
3.플래너 토큰·구조적 컴포넌트에 보상 부여해 계획 단계 최적화의 모호성 감소 및 세밀한 크레딧 할당 가능

💡

왜 중요한가?

LLM 딥 리서치 에이전트의 계획-실행 분리 학습 난제를 DAG 구조화로 해결하며, 8B 소형 모델로도 강한 기준을 앞서 실용적 배포 가능성을 보인다.

🏷️ 언급 프로젝트

DecomposeR Qwen3

본문 미리보기

arXiv:2605.30824v1 Announce Type: new Abstract: Deep research tasks require LLMs to plan what to investigate, retrieve evidence, and synthesize long-form answers across multiple branches of inquiry. Existing training paradigms either rely on short-form verifiable QA as a proxy or optimize monolithic long trajectories, which makes planning and execution difficult to disentangle and yields weak credit assignment for the planning process. We propose DecomposeR, a planner-centric deep research fram

전체 내용이 궁금하다면?

원문을 직접 읽어보세요

원문 보기

#딥리서치#강화학습#LLM계획#보상모델링#멀티스텝추론

8시간 전

Thousand Token Wood: shipping a multi-agent economy on a 3B model

🏢공식HuggingFace Blog

원문

1일 전

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

arXiv:2606. 05384v1 Announce Type: new Abstract: LLM-as-judge evaluation is widely used in benchmarking pipelines, where model outputs are compared and ranked using automated evaluators. These pipelines typically assume that judgments are stable properties of fixed inputs. We show that this assumpti

📰미디어arXiv cs.AI

원문

Planner-Centric Reinforcement Learning for Deep Research with Structure-Aware Reward

본문 미리보기

관련 글

Thousand Token Wood: shipping a multi-agent economy on a 3B model

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

An interpretable and trustworthy AI framework for large-scale longitudinal structure-pain association studies using data from the Osteoarthritis Initiative (OAI)

SentinelBench: A Benchmark for Long-Running Monitoring Agents