오디오·비주얼 LLM(AVLLM) 내부에서 음성과 시각 토큰이 최종 예측에 어떻게 전달·통합되는지의 정보 흐름을 추적한 해석성 연구다. 오디오-비주얼 비디오 입력에서는 AVLLM이 VLM·VideoLLM에서 확립된 순차적 정보 흐름 경로를 따르며, 음성·시각 기여가 각 모달리티에 대한 과제 의존도에 비례해 흐른다. 반면 여러 오디오-비주얼 항목이 교차된 설정에서는 라우팅이 서로 다른 병렬 스트림으로 전환된다. 또한 정보가 LLM으로 전달된 뒤에는 오디오·비주얼 등 토큰을 폐기해도 예측에 영향이 거의 없거나 오히려 소폭 향상돼 더 효율적인 추론이 가능함을 여러 과제·데이터셋에서 보였다. Qwen2.5-Omni·Video-SALMONN2 Plus의 3B·7B 규모에서 일관됐다.
- •AVLLM 내부의 음성·시각 토큰 정보 흐름을 처음으로 체계적으로 추적
- •오디오-비주얼 비디오에서는 VLM·VideoLLM과 같은 순차적 경로를 따르며 모달리티 의존도에 비례
- •여러 항목이 교차된 설정에서는 라우팅이 병렬 스트림으로 전환
- •정보 전달 후 토큰을 폐기해도 예측 영향이 거의 없어 효율적 추론 가능
- •Qwen2.5-Omni·Video-SALMONN2 Plus 3B·7B 규모에서 일관된 결과
From Senses to Decisions: The Information Flow of Auditory and Visual Perception in Multimodal LLMs
- 1.AVLLM 내부에서 오디오·시각 토큰이 최종 예측을 형성하는 경로를 추적
- 2.오디오-비주어 영상은 VLM·VideoLLM과 같은 순차 정보흐름을 따름
- 3.다수 교차 항목 입력에서는 이 경로가 병렬 스트림으로 전환
- 4.정보 전달 후 토큰 폐기가 예측에 거의 영향 없어 효율적 추론 가능
왜 중요한가?
시청각 멀티모달 LLM의 내부 정보 흐름이 불투명하던 상황에서, 오디오·비주얼 토큰의 라우팅·통합 경로를 처음으로 일관되게 규명하고 전달 후 토큰 폐기로 추론 효율을 높일 수 있음을 보여 해석가능성·설계·효율 연구의 토대를 놓았다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2606.10147v1 Announce Type: new Abstract: Multimodal Large Language Models (MLLMs) can listen and see, but how do audio and visual signals actually travel through the network to shape an answer? Despite their growing role in research and real-world applications, the internal pathways through which audio and visual tokens influence the final prediction remain poorly understood. In this study, we examine audio-visual information flow inside Audio-Visual Large Language Models (AVLLMs), traci
전체 내용이 궁금하다면?
원문을 직접 읽어보세요