멀티모달 대형 언어 모델(MLLM)의 라우팅을 반사실적 멀티모달 효용 예측으로 공식화하는 LatentRouter를 제안합니다. 학습된 멀티모달 라우팅 캡슐과 모델 역량 토큰 간 잠재 통신으로 각 모델의 예상 성능을 추정하며, 한정된 경계 캡슐 보정으로 근접 결정을 세밀하게 조정합니다. MMR-Bench와 VL-RouterBench에서 고정 모델, 특징 수준, 학습 기반 라우터 기준선을 모두 능가했습니다.
- •LatentRouter는 MLLM 라우팅을 반사실적 멀티모달 효용 예측으로 공식화합니다.
- •학습된 라우팅 캐싗과 모델 역량 토큰 간 잠재 통신으로 모델별 반사실적 품질을 예측합니다.
- •MMR-Bench와 VL-RouterBench에서 고정 모델, 특징 수준, 학습 기반 라우터 기준선을 모두 능가합니다.
- •시각적·레이아웃·추론 요구사항이 있는 멀티모달 작업군에서 성능 향상이 가장 두드러집니다.
LatentRouter: Can We Choose the Right Multimodal Model Before Seeing Its Answer?
- 1.멀티모달 LLM 라우팅을 반사실적 유틸리티 예측으로 정식화한 LatentRouter 제안
- 2.멀티모달 라우팅 캡슐과 모델 역량 토큰으로 쿼리-모델 매칭 수행
- 3.경계 캡슐 보정으로 근접 결정의 정확도 향상
- 4.MMR-Bench와 VL-RouterBench에서 기존 라우터 기준선 대비 우월한 성능 달성
왜 중요한가?
다양한 멀티모달 작업에서 최적의 모델을 자동으로 선택하는 라우팅 시스템으로, 비용 대비 성능을 최적화하는 실용적 AI 인프라 기술을 제시한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.11301v1 Announce Type: new Abstract: Multimodal large language models (MLLMs) have heterogeneous strengths across OCR, chart understanding, spatial reasoning, visual question answering, cost, and latency. Effective MLLM routing therefore requires more than estimating query difficulty: a router must match the multimodal requirements of the current image-question input with the capabilities of each candidate model. We propose LatentRouter, a router that formulates MLLM routing as count
전체 내용이 궁금하다면?
원문을 직접 읽어보세요