대형 추론 모델의 Chain-of-Thought 생성에서 불필요한 구조적 중복('과사고') 문제를 세그먼트 수준에서 선택적으로 제거하는 SLAT(Segment-Level Adaptive Trimming) 강화학습 프레임워크를 제안했다. 기존 토큰 균일 길이 패널티가 유용한 추론까지 억제하는 문제를 해결하기 위해, 정확도-길이 트레이드오프 목표 하에서 세그먼트 비최적성을 이론적으로 특성화하고 고확률·저한계효용 세그먼트를 선택적으로 억제한다. 표준 벤치마크에서 비압축 베이스라인 대비 추론 길이를 50% 줄이면서 경쟁력 있는 정확도를 유지하는 우수한 정확도-효율성 파레토 프론티어를 달성했다. 이는 이론 기반 세그먼트 인식 트리밍이 효율적 CoT 추론을 위한 유망한 방향임을 보여준다.
- •SLAT는 고확률·저한계효용 세그먼트를 이론적 기준으로 선택해 제거하며, 기존 토큰 균일 패널티보다 유용한 추론을 보존하면서 중복만 제거한다.
- •표준 벤치마크에서 추론 길이를 50% 줄이면서 경쟁력 있는 정확도를 유지하는 우수한 정확도-효율성 파레토 프론티어를 달성했다.
- •정확도-길이 트레이드오프 목표 하에서 세그먼트 비최적성을 이론적으로 특성화한 최초의 세그먼트 인식 추론 트리밍 방법이다.
SLAT: Segment-Level Adaptive Trimming for Efficient CoT Reasoning
- 1.CoT 추론에서 비효율이 집중되는 고확률·저한계효용 세그먼트를 이론적으로 특성화하고 선택적으로 제거하는 SLAT 제안
- 2.세그먼트 수준 RL로 추론 길이를 기준 대비 50% 단축하면서 표준 벤치마크에서 경쟁적 정확도 유지
- 3.토큰 단위 균일 페널티 대비 유용한 추론을 억제하지 않는 우월한 정확도-효율 파레토 프론티어 달성
왜 중요한가?
대형 추론 모델의 과잉 사고 문제를 이론적 근거로 해결해, 추론 비용을 절반으로 줄이면서 정확도를 유지하는 실용적 경로를 제시한다. LLM 서빙 비용 절감에 직접 적용 가능하다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.30832v1 Announce Type: new Abstract: Recent advances in Large Reasoning Models have significantly improved chain-of-thought (CoT) capabilities via reinforcement learning (RL). However, generated reasoning chains frequently suffer from structural redundancy (i.e., \emph{overthinking}), incurring high computational overhead without improving answer correctness. Existing mitigation strategies typically rely on token-uniform length penalties, which provide coarse, segment-agnostic pressu
전체 내용이 궁금하다면?
원문을 직접 읽어보세요