LLM 경량화에서 구조적 가지치기(pruning)와 혼합 정밀도 양자화를 하나의 탐색 공간에서 동시에 최적화하는 엔드투엔드 프레임워크를 제안한다. 기존 사후학습 양자화(PTQ)는 층별 오류만 최적화해 오류 누적·전파를 간과하고, 가지치기와 양자화를 따로 또는 순차 적용해 최적성이 떨어진다는 문제를 지적한다. 저자들은 모델 전체의 전역 오류 전파를 직접 최소화하는 혼합 정밀도 PTQ 전략과, 가지치기 결정과 양자화 정책을 함께 학습하는 공동 최적화를 결합했다. 초저정밀(1~3비트)에서 SoTA 가중치-활성화 양자화 대비 WikiText 퍼플렉서티를 최대 21% 낮췄고, 가중치 전용 방식 대비 WikiText·C4에서 각각 최대 59%·85% 낮은 퍼플렉서티를 달성했다. 메모리·지연을 크게 줄이면서 추론 성능을 지키는 실용적 압축 기법이다.
- •구조적 가지치기와 혼합 정밀도 양자화를 단일 탐색 공간에서 동시 최적화하는 엔드투엔드 프레임워크
- •층별 오류 대신 모델 전체의 전역 오류 전파를 직접 최소화하는 혼합 정밀도 PTQ 전략
- •초저정밀(1~3비트)에서 SoTA 가중치-활성화 양자화 대비 WikiText 퍼플렉서티 최대 21% 감소
- •가중치 전용 방식 대비 WikiText·C4에서 각각 최대 59%·85% 낮은 퍼플렉서티
Joint Structural Pruning and Mixed-Precision Quantization for LLM Compression
- 1.LLM 압축을 위해 구조적 프루닝과 혼합정밀도 양자화를 단일 탐색공간에서 동시 최적화하는 종단간 프레임워크
- 2.레이어별이 아닌 모델 전체의 전역 오차 전파를 직접 최소화하는 혼합정밀도 PTQ 전략 제안
- 3.1~3비트 초저정밀도에서 WikiText perplexity를 SoTA 가중치-활성 양자화 대비 최대 21% 감소
- 4.가중치 전용 양자화 대비 WikiText 59%·C4 85%까지 perplexity 개선
왜 중요한가?
프루닝과 양자화를 따로 적용하던 기존 파이프라인의 누적 비효율을 동시 최적화로 해소하고, 1~3비트 초저정밀도에서도 큰 성능 향상을 보였다는 점에서 메모리·지연이 중요한 LLM 배포 환경에 실질적 개선을 제공한다.
본문 미리보기
arXiv:2606.07819v1 Announce Type: new Abstract: Recently, the efficiency of Large Language Models (LLMs) deployment has become a critical concern in practical applications. While post-training quantization (PTQ) and structural pruning are established techniques for reducing memory footprint and inference latency, most existing PTQ approaches optimize quantization errors on a per-layer basis, overlooking how errors accumulate and propagate through the network, often resulting in suboptimal solut
전체 내용이 궁금하다면?
원문을 직접 읽어보세요