Orchestra-o1은 텍스트·이미지·오디오·비디오가 공존하는 옴니모달 환경에서 다중 에이전트 협업을 지원하는 오케스트레이션 프레임워크다. 모달리티 인식 기반 과제 분해, 온라인 서브에이전트 특화, 병렬 서브태스크 실행을 통합 메커니즘으로 제공한다. OmniGAIA 벤치마크에서 차순위 방법보다 정확도를 10.3% 높였다. 또한 결정 정렬 그룹 상대 정책 최적화(DA-GRPO)라는 에이전트 강화학습 기법으로 Orchestra-o1-8B를 학습해 기존 오픈소스 옴니모달 에이전트 전체 대비 최고 성능을 달성했다. 이는 이질적 모달리티가 상호작용하는 복잡한 실제 과제로 에이전트 협업을 확장하는 실용적 방안을 제시한다.
- •텍스트·이미지·오디오·비디오를 아우르는 옴니모달 다중 에이전트 오케스트레이션 프레임워크
- •모달리티 인식 과제 분해, 온라인 서브에이전트 특화, 병렬 서브태스크 실행을 통합 제공
- •OmniGAIA 벤치마크에서 차순위 방법 대비 정확도 10.3% 향상
- •DA-GRPO(결정 정렬 그룹 상대 정책 최적화)로 Orchestra-o1-8B 학습
- •기존 오픈소스 옴니모달 에이전트 전체 대비 최고 성능 달성
Orchestra-o1: Omnimodal Agent Orchestration
본문 미리보기
arXiv:2606.13707v1 Announce Type: new Abstract: The recent success of agent swarms has shifted the paradigm of large language model (LLM)-based agents from single-agent workflows to multi-agent systems, highlighting the importance of agent orchestration for task decomposition and collaboration. However, existing orchestration frameworks are limited to a narrow set of modalities and struggle to generalize to more complex settings where heterogeneous modalities coexist and interact. This limitati
전체 내용이 궁금하다면?
원문을 직접 읽어보세요