What We are Missing in Multimodal LLM Evaluation?
- 1.멀티모달 LLM의 능력 발전에 평가 방법이 뒤처져 있다고 진단
- 2.기존 벤치마크가 고립된 과제에 한정돼 모달리티 간 정보통합 여부를 거의 못 드러냄
- 3.시공간 일관성·물리세계 이해·멀티모달 일관성·선택적 주의 등 평가 공백 식별
- 4.이 공백 해소가 실제 멀티모달 지능 진전 측정과 능력 한계 노출에 필수라고 주장
왜 중요한가?
멀티모달 모델 성능을 분리된 과제로만 측정하는 현 관행의 맹점을 정리해, 진정한 모달리티 통합 능력을 측정할 차세대 벤치마크 설계 방향을 제시한다.
본문 미리보기
arXiv:2606.26348v1 Announce Type: new Abstract: Multimodal large language models (MLLMs) can process diverse inputs, e.g., text, images, audio, and video, and generate textual responses. While their capabilities have advanced rapidly, evaluation of such models has not kept pace. Most existing evaluation benchmarks are limited to isolated tasks and reveal little about whether a model integrates information across modalities. We examine current means for evaluating MLLMs and review the existing b
전체 내용이 궁금하다면?
원문을 직접 읽어보세요