추론 가능 LLM이 생성하는 긴 사고 체인의 실제 필요성을 처음으로 대규모 정량화했다. 4개 프론티어 추론 모델·2개 수학 벤치마크에서 단계 수준 중복도가 61~93%로 일관되게 높았으며, 6/8 조건에서 중앙값 임계 접두사는 단 1개 단계였다. MATH-500 최고 난이도(Level-5)에서도 중복도는 46~85%로 유지됐다. 과잉 사고(overthinking)가 길이 무관 결과 보상의 구조적 귀결임을 수학적으로 증명했으며, RL 알고리즘·기반 모델·데이터 분포와 무관한 보편적 현상임을 시사한다.
- •4개 프론티어 추론 모델·2개 수학 벤치마크에서 단계 수준 중복도가 61~93%로 일관되게 높음.
- •6/8 조건에서 중앙값 임계 접두사가 단 1개 단계로, 대부분의 추론 단계가 불필요함을 실증.
- •과잃 사고(overthinking)가 길이 무관 결과 보상의 구조적 귀결임을 수학적으로 증명 — RL·기반 모델·데이터 무관한 보편 현상.
How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning
- 1.추론 LLM의 정확한 최종 답을 유지하면서 제거 가능한 후미 추론 단계 비율(중복도 ρ)이 61~93%에 달함을 대규모 측정
- 2.4개 프론티어 추론 모델, MATH-500 등 2개 수학 벤치마크에서 중앙값 핵심 접두사는 단 1개 세그먼트
- 3.과잉 사고는 길이 무관 결과 보상 구조의 필연적 결과임을 수학적으로 증명 — 특정 모델 버그가 아닌 구조적 문제
왜 중요한가?
LLM 추론 모델의 과잉 사고가 RL 알고리즘·베이스 모델·데이터와 무관한 구조적 속성임을 최초로 증명, 추론 비용 절감을 위해 보상 설계 자체를 바꿔야 한다는 방향을 제시한다.
본문 미리보기
arXiv:2605.23926v1 Announce Type: new Abstract: Reasoning-capable large language models solve hard problems by emitting long chains of thought, paying heavily in latency, GPU time, and energy. Casual inspection of their traces reveals extensive reformulation, verification, and circular self-reflection, yet how much of this deliberation is actually necessary has never been measured at scale or explained from first principles. This paper closes both gaps. We formalise reasoning redundancy direc
전체 내용이 궁금하다면?
원문을 직접 읽어보세요