CaVe-VLM-CoT: An Interpretable Vision-Language Model Framework
- 1.CaVe-VLM-CoT: VLM 환각을 줄이는 반성 기반 에이전틱 RAG 프레임워크
- 2.추출·검색·해결·인용 주입·검증 5단계 폐루프로 근거 기반 추론 강제
- 3.근거 없는 주장이 탐지되면 추출기로 피드백해 표적 재검색 수행
- 4.ScienceQA 정확도 87.1%·CaVeScore 56.6%, MMMU 55.2%·CaVeScore 35.7% 달성
왜 중요한가?
단계별 인용 그라운딩을 강제하지 못하고 검증 실패를 재검색으로 되돌리지 못하던 기존 CoT·RAG 한계를, 폐루프 구조와 23개 세부 지표로 보완해 시각적으로 충실한 VLM 추론을 가능하게 한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2606.18385v1 Announce Type: new Abstract: Vision-Language Models (VLMs) remain prone to hallucinations, producing fluent but visually unfaithful outputs. Existing chain-of-thought and retrieval-augmented methods only partially address this, as they neither enforce step-level citation grounding nor route verification failures back to retrieval for correction. We present CaVe-VLM-CoT, a modular reflection-based agentic-RAG framework that enforces evidence-grounded reasoning through a five-s
전체 내용이 궁금하다면?
원문을 직접 읽어보세요