다중 에이전트 LLM 오케스트레이션이 서빙 인프라의 실행 상태를 고려하지 않아, 공유 GPU 클러스터에서 선호 모델에 요청이 쌓이고 동등한 대안은 유휴 상태로 남는 자원 비효율을 다룬다. INFRAMIND는 큐 깊이·KV 캐시 압박·지연 같은 실시간 신호로 계획·라우팅·스케줄링을 모두 인프라 인지화한다. 인프라 인지 플래너는 부하와 잔여 예산에 따라 토폴로지를 조정하고, 실행기는 단계별 모델과 추론 깊이를 결정하며, 예산 인지 스케줄러가 급한 요청을 먼저 처리하도록 큐를 재정렬한다. 계층적 제약 MDP로 정식화해 강화학습으로 종단간 학습한 결과, 5개 벤치마크에서 저부하 시 정확도 최대 +7.6%p와 최대 7배 낮은 지연을 달성하고, 모든 기준선이 50% 아래로 떨어지는 고부하에서도 최대 99.9% SLO 준수를 유지했다.
- •큐 깊이·KV 캐시·지연 등 실시간 인프라 신호로 계획·라우팅·스케줄링을 인지화하는 INFRAMIND 제안
- •인프라 인지 플래너·실행기와 예산 인지 스케줄러로 부하에 따라 토폴로지·라우팅·큐 동적 조정
- •계층적 제약 MDP로 정식화해 강화학습으로 품질-지연 균형을 종단간 학습
- •5개 벤치마크에서 저부하 +7.6%p 정확도·최대 7배 낮은 지연, 고부하에서 최대 99.9% SLO 준수
INFRAMIND: Infrastructure-Aware Multi-Agent Orchestration
- 1.멀티에이전트 LLM 오케스트레이션을 인프라 상태 인지로 전환하는 프레임워크 INFRAMIND 제안
- 2.기존 방식은 서빙 인프라 런타임 상태를 무시해 선호 모델에 큐가 쌓이고 동급 대안은 유휴되는 저활용 유발
- 3.인프라 인지 플래너·실행기·예산 인지 스케줄러가 큐 깊이·KV캐시·지연을 보고 계획·라우팅·스케줄링 결정
- 4.계층적 제약 MDP를 RL로 해결, 저부하서 +7.6pp 정확도·최대 7배 낮은 지연, 고부하서 99.9% SLO 준수
왜 중요한가?
공유 GPU 클러스터 동시 부하에서 멀티에이전트 파이프라인의 지연이 단계마다 누적되는 '인프라 무지' 문제를 정면으로 다룬다. 모든 베이스라인이 고부하서 50% 미만으로 떨어질 때 99.9% SLO를 유지한다는 결과는 LLM 서비스 운영 비용·안정성에 직접적 가치를 준다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2606.11440v1 Announce Type: new Abstract: Existing multi-agent LLM orchestration methods, ranging from brute-force ensembles to learned routers, select models and topologies based on task and model features. However, these methods do not consider the runtime state of the serving infrastructure. On shared GPU clusters under concurrent load, this infrastructure blindness causes systematic resource underutilization: preferred models accumulate deep request queues while equally capable altern
전체 내용이 궁금하다면?
원문을 직접 읽어보세요