딥 리서치 태스크에서 계획과 실행을 분리해 각각에 보상을 부여하는 DecomposeR 프레임워크를 제안했다. 리서치 플랜을 타입화된 방향성 비순환 그래프(DAG)로 표현해 계획을 명시적·구조적으로 만들고, Qwen3-8B 모델을 플래너 강화학습(그래프 구조·쿼리 분해 최적화) → 응답자 강화학습(브랜치 수준 실행·최종 합성) 2단계로 학습한다. 기존의 단답형 QA 프록시나 단일 긴 궤적 최적화와 달리 플래너 토큰과 구조 컴포넌트에 직접 보상을 부여해 세밀한 최적화가 가능하다. 인기 있는 장문 벤치마크에서 비교 가능한 오픈 베이스라인 대비 5.1~8.0포인트 향상을 달성했다.
- •리서치 플랜을 타입화된 DAG로 표현해 계획과 실행을 명시적으로 분리하고 각 단계에 독립적 보상을 부여해 신용 할당(credit assignment) 문제를 해결했다.
- •Qwen3-8B 기반 DecomposeR-8B가 장문 벤치마크에서 오픈 베이스라인 대비 5.1~8.0포인트 향상을 달성했다.
- •플래너 RL + 응답자 RL의 2단계 학습이 엔드투엔드 학습 대비 계획·실행 양쪽 품질을 동시에 높이는 효과를 보였다.
Planner-Centric Reinforcement Learning for Deep Research with Structure-Aware Reward
- 1.딥 리서치 태스크를 위해 연구 계획을 타입 DAG로 표현하고 플래너-답변자 2단계 RL로 훈련하는 DecomposeR 제안
- 2.Qwen3-8B 기반 DecomposeR-8B가 유사 규모 오픈 기준 대비 장문 벤치마크에서 5.1~8.0점 향상
- 3.플래너 토큰·구조적 컴포넌트에 보상 부여해 계획 단계 최적화의 모호성 감소 및 세밀한 크레딧 할당 가능
왜 중요한가?
LLM 딥 리서치 에이전트의 계획-실행 분리 학습 난제를 DAG 구조화로 해결하며, 8B 소형 모델로도 강한 기준을 앞서 실용적 배포 가능성을 보인다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.30824v1 Announce Type: new Abstract: Deep research tasks require LLMs to plan what to investigate, retrieve evidence, and synthesize long-form answers across multiple branches of inquiry. Existing training paradigms either rely on short-form verifiable QA as a proxy or optimize monolithic long trajectories, which makes planning and execution difficult to disentangle and yields weak credit assignment for the planning process. We propose DecomposeR, a planner-centric deep research fram
전체 내용이 궁금하다면?
원문을 직접 읽어보세요