LLM 실제 배포에서 추론 품질과 계산 비용의 균형 문제를 해결하기 위해, 모델 라우팅과 테스트 시간 스케일링(TTS)을 단일 최적화 공간에서 통합하는 UniScale 프레임워크를 제안했다. 기존 방법은 두 메커니즘을 독립적으로 처리해 이산적 성능 변화나 용량 한계에 부딪히는 반면, UniScale은 이를 문맥적 다중 슬롯 밴딧 문제로 모델링하고 LinUCB로 추론 정책을 온라인 학습한다. 효율성 인식 학습과 비용 모델링을 결합해 고차원 액션 공간에서 안정적 최적화를 달성하며, 다양한 동적 추론 환경에서 일관되게 더 나은 품질-비용 트레이드오프를 제공한다.
- •UniScale은 모델 라우팅(모델 규모 전환)와 테스트 시간 스케일링(TTS)을 단일 최적화 공간(UIS)으로 통합해 두 방법의 상호보완 효과를 활용한다.
- •문맥적 다중 슬롯 밴딧 문제로 모델링하고 LinUCB 알고리즘으로 추론 정책을 온라인 학습해 동적 환경에 적응한다.
- •기존 독립적 접근 대비 다양한 동적 추론 시나리오에서 더 세밀하고 일관된 품질-비용 트레이드오프를 달성함을 실험으로 검증했다.
UniScale: Adaptive Unified Inference Scaling via Online Joint Optimization of Model Routing and Test-Time Scaling
- 1.모델 라우팅과 테스트-타임 스케일링(TTS)을 단일 최적화 공간에서 통합하는 UniScale 프레임워크 제안
- 2.컨텍스트 멀티암드 밴딧(LinUCB) 기반 온라인 학습으로 추론 효율·비용을 동시 최적화
- 3.분리된 기존 접근 대비 다양한 동적 추론 시나리오에서 품질-비용 트레이드오프 우위 입증
왜 중요한가?
LLM 배포에서 모델 라우팅과 TTS를 따로 최적화하면 각각 이산적 전환·수익 감소 한계가 생기는데, 통합 최적화로 실용적인 비용 절감과 품질 향상을 동시에 달성할 수 있음을 보인다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.30898v1 Announce Type: new Abstract: In real-world deployments of large language models (LLMs), balancing inference quality and computational cost has become a central challenge. Existing approaches tackle this trade-off along two largely independent dimensions: model routing, which switches among models of different scales to match request complexity, and test-time scaling (TTS), which adjusts inference-time compute within a fixed model for fine-grained control. However, this decoup
전체 내용이 궁금하다면?
원문을 직접 읽어보세요