ReMMD는 다국어·다중이미지 게시물을 대상으로 하는 현실적인 멀티모달 허위정보 탐지·검증 프레임워크다. 기존 벤치마크가 짧은 캡션·단일 이미지·이진 라벨에 머문 한계를 넘어, 500개 샘플과 2,756장 이미지, 5개 단일언어와 2개 교차언어 설정, 5단계 진위 라벨과 8종 왜곡 라벨, 증거 출처·근거를 담은 벤치마크 ReMMDBench를 제시한다. 검증기 ReMMD-Agent는 게시물을 원자 단위 주장으로 분해하고 재사용 가능한 증거 집합을 구축하는 지속 메모리 방식으로 L1/L2/L3 구조화 출력을 예측한다. GPT-5.2 기반에서 5단계 진위 정확도 41.80%, 매크로 F1 39.12%로 최고 성능을 내면서 비용은 MMD-Agent 대비 17.5%, T2-Agent 대비 79.9% 절감했다.
- •500샘플·2,756이미지·다국어·5단계 진위 라벨의 현실적 벤치마크 ReMMDBench 구축
- •게시물을 원자 주장으로 분해하고 재사용 증거 집합을 구축하는 지속 메모리 검증기 ReMMD-Agent
- •GPT-5.2 기반 5단계 진위 정확도 41.80%, 매크로 F1 39.12%로 최고 성능
- •비용을 MMD-Agent 대비 17.5%, T2-Agent 대비 79.9% 절감
- •다국어·다중이미지·증거 탐색 현실성을 모두 반영한 에이전트형 검증 설계
ReMMD: Realistic Multilingual Multi-Image Agentic Verification for Multimodal Misinformation Detection
본문 미리보기
arXiv:2606.24112v1 Announce Type: new Abstract: Multimodal misinformation detection is increasingly important because viral posts now combine long multilingual narratives, several images, mixed provenance, and subtle text--image framing errors. Existing benchmarks and methods remain poorly matched to this setting: they usually isolate short captions, single images, binary labels, or one manipulation source, while agentic verification remains costly under realistic evidence search. We present Re
전체 내용이 궁금하다면?
원문을 직접 읽어보세요