HOTE(Hybrid Open-Ended Tri-Evolution)는 딥리서치와 에이전트 진화를 결합한 프레임워크로, 하이브리드 모드 강화학습을 통해 제안자(proposer)·해결자(solver)·심판(judge) 세 모듈을 웹 규모 지식 위에서 협력적으로 공진화시킨다. 정답이 정해진 검증형 과제에 머물던 기존 에이전트 진화의 한계를 넘어 개방형 연구 과제로 확장하는 것이 목표다. 세 개의 장문 딥리서치 벤치마크 실험에서 HOTE로 학습한 8B 모델이 더 강력한 정적 8~32B 오픈 모델과 최신 딥리서치 학습 기법으로 훈련된 모델을 더 적은 시간 비용으로 능가했다. 세 모듈 모두의 진화가 필수적임도 확인해, 개방형 환경에서 자율 진화하는 에이전트의 가능성을 보였다.
- •제안자·해결자·심판 세 모듈을 하이브리드 강화학습으로 공진화시키는 HOTE 프레임워크
- •검증형 과제에 한정됐던 에이전트 진화를 개방형 연구 과제로 확장
- •HOTE로 학습한 8B 모델이 정적 8~32B 오픈 모델 및 최신 딥리서치 학습 모델을 능가
- •더 적은 시간 비용으로 우수한 성능 달성
- •세 모듈 모두의 진화가 성능에 필수적임을 검증
Hybrid Open-Ended Tri-Evolution Makes Better Deep Researcher
본문 미리보기
arXiv:2606.13710v1 Announce Type: new Abstract: Deep research and agent evolution serve as de-facto tasks for AI agents in real-world applications toward artificial general intelligence. The former enables autonomous retrieval and integration of information in open-ended environments to tackle open-ended research tasks, yet it is constrained by the static parametric deep research capabilities of agent systems. The latter allows agents to autonomously interact with the environment to gain experi
전체 내용이 궁금하다면?
원문을 직접 읽어보세요