Visual-Seeker는 능동적 시각 추론을 통한 시각 네이티브 멀티모달 심층 검색 에이전트다. 비전을 정적 입력으로 다루던 기존 방식과 달리, 미세한 시각 세부를 능동적으로 주시하고 검색 과정 내내 시각 증거를 동적으로 수집한다. 시각 네이티브 잠재력을 끌어내기 위해 능동 시각 추론 데이터 파이프라인을 설계하고 5천 개의 고품질 멀티모달 궤적을 합성해 학습한다. 다섯 개의 까다로운 멀티모달 검색 벤치마크에서 일부 상용 모델까지 능가하는 최첨단 성능을 달성해, 실제 웹 환경에서 견고한 시각 네이티브 추론과 검색을 입증한다.
- •능동적 시각 추론 기반 시각 네이티브 멀티모달 심층 검색 에이전트 Visual-Seeker
- •비전을 정적 입력이 아닌 능동 주시·동적 시각 증거 수집 대상으로 취급
- •능동 시각 추론 데이터 파이프라인으로 5K 고품질 멀티모달 궤적 합성·학습
- •5개 멀티모달 검색 벤치마크서 일부 상용 모델 능가하는 SOTA 달성
Visual-Seeker: Towards Visual-Native Multimodal Agentic Search via Active Visual Reasoning
본문 미리보기
arXiv:2606.15231v1 Announce Type: new Abstract: Multimodal large language models (MLLMs) have demonstrated impressive capabilities in many visual tasks, but they often struggle with factual grounding when confronted with complex, open-world scenarios. While recent multimodal deep search agents attempt to address this issue by utilizing external tools, the visual-native search paradigm remains underexplored. Existing methods primarily rely on simple images with explicit semantics and text-only e
전체 내용이 궁금하다면?
원문을 직접 읽어보세요