멀티모달 대형 언어 모델(MLLM)에서 텍스트 전제가 시각적 증거보다 우선시되는 모달리티 충돌 환각의 원인을 메커니즘 관점에서 분석했다. 5개 MLLM에 헤드 수준 인과 분석을 적용한 결과, 환각 유도 헤드는 넓게 분포하고 저항 헤드는 소수의 고중요 헤드에 집중되는 비대칭 구조를 발견했다. 이를 기반으로 충돌 감지 시에만 환각 유도 헤드를 억제하는 조건부 인과 개입 MACI를 제안했으며, MMMC 벤치마크에서 추론 시간 개입 기준선 중 가장 큰 환각 감소와 유리한 정확도 트레이드오프를 달성했다.
- •5개 MLLM에 헤드 수준 인과 분석을 적용해 환각 유도 헤드와 저항 헤드 각각 식별
- •환각 유도 효과는 넓게 분포하고 저항 효과는 소수 고중요 헤드에 집중된 비대칭 구조 확인
- •충돌 감지 시에만 환각 유도 헤드를 억제하는 조건부 인과 개입 MACI 제안
- •MMMC 벤치마크에서 추론 시간 기준선 중 가장 큰 환각 감소, SCI-SemanticConflict에 제로샷 전이
Causal Evidence for Attention Head Imbalance in Modality Conflict Hallucination
본문 미리보기
arXiv:2605.19250v1 Announce Type: new Abstract: Modality-conflict hallucination occurs when multimodal large language models (MLLMs) prioritize erroneous textual premises over contradictory visual evidence. To understand why visual evidence fails to prevail during generation, we take a mechanistic perspective and examine which internal components drive or resist this failure. We perform head-level causal analysis using path patching across five open-source MLLMs and identify two groups of atten
전체 내용이 궁금하다면?
원문을 직접 읽어보세요