Quantifying Consistency in LLM Logical Reasoning via Structural Uncertainty
- 1.추론 경로 일관성을 측정하는 '구조적 불확실성' 프레임워크 제안
- 2.자기선호 순위 안정성을 Bradley-Terry·PageRank로 집계해 두 엔트로피 성분으로 분해
- 3.5개 LLM·8개 벤치마크서 답변 분산과 상보적 신호 제공, 논리·수학 추론서 비신뢰 사례 식별 개선
- 4.시행내 모호성은 정확도와 양의 상관, 시행간 불안정성은 음의 상관
왜 중요한가?
기존 출력 분산 측정이 버리던 '추론 후보를 일관되게 순위 매기는 능력' 신호를 활용해, 다단계 논리 추론의 신뢰성을 영역 민감하게 진단하는 보완 지표를 제시했다.
본문 미리보기
arXiv:2606.17312v1 Announce Type: new Abstract: Large language models can arrive at the same answer through reasoning paths that are unstable, contradictory, or difficult to rank consistently -- a failure mode especially prevalent in multi-step deductive reasoning. Existing methods assess reliability primarily through output dispersion -- measuring how much sampled answers differ -- but this discards a complementary signal: whether the model can consistently rank competing reasoning candidates.
전체 내용이 궁금하다면?
원문을 직접 읽어보세요