Minimizing the Hidden Cost of Scales: Graph-Guided Ultra-Low-Bit Quantization for Large Language Models
- 1.LLM 효율적 배포의 핵심
- 2.초저비트 양자화 기술
- 3.숨겨진 비용 최소화 방안
왜 중요한가?
대규모 언어 모델(LLM)의 효율적인 배포를 저해하는 숨겨진 비용 문제를 해결하여, LLM을 더욱 광범위하게 적용하고 자원 효율성을 높이는 데 기여합니다. 특히 그래프 기반 양자화 방법은 모델 경량화에 새로운 방향을 제시합니다.
본문 미리보기
arXiv:2606.05429v1 Announce Type: new Abstract: Post-training quantization (PTQ) is critical for the efficient deployment of large language models (LLMs). Recent ultra-low-bit PTQ methods rely on rigid weight-saliency assumptions or position heuristics, introducing substantial hidden scaling overhead. We propose SAGE-PTQ (Saliency-Aware Graph-guided Efficient PTQ), a novel ultra-low-bit quantization framework for LLMs that minimizes hidden scaling cost. SAGE-PTQ separates salient and unsalient
전체 내용이 궁금하다면?
원문을 직접 읽어보세요