구조화된 임상 데이터에서 LLM이 자기 지식의 한계를 인식할 수 있는지를, 교차모델 귀속 발산(cross-model attribution divergence) 관점에서 Qwen 2.5 7B와 XGBoost를 비교해 분석했다. 네 가지 발견은 다음과 같다. 첫째, LLM의 언어화된 확신도는 정확도가 49%든 75.3%든 거의 일정한 값(0.856~0.937)을 내며 예측 품질이 아닌 프롬프트 형식만 추종해 인식론적으로 무의미하다. 둘째, XGBoost가 99% 정확할 때 오히려 정확도가 64.8%로 떨어지는 역(逆)난이도 효과를 보인다. 셋째, 퓨샷 예시와 SHAP 특성 증거는 직교적·초가산적으로 작용해 학습 없이 귀속 불일치 점수(ADS)를 1.54→0.38, 정확도를 49%→75.3%로 개선한다. 넷째, 귀속 발산 신호로 LLM 신뢰성을 판정하는 교차모델 보정기가 기대보정오차를 0.254→0.080으로 낮춘다.
- •LLM의 언어화된 확신도는 정확도와 무관하게 거의 일정(0.856~0.937)해 인식론적으로 무의미
- •XGBoost가 99% 정확할 때 정확도가 64.8%로 떨어지는 역난이도 효과 확인
- •퓨샷+SHAP 증거가 초가산적으로 작용해 학습 없이 ADS 1.54→0.38, 정확도 49%→75.3%
- •교차모델 보정기가 기대보정오차(ECE)를 0.254→0.080으로 낮춰 환자별 신뢰성 추정 제공
- •구조화 데이터에서 LLM의 '콜드 스타트' 문제로 규정하고 진정한 인식론적 자기인식 경로 제시
LLM Doesn't Know What It Doesn't Know: Detecting Epistemic Blind Spots via Cross-Model Attribution Divergence on Clinical Tabular Data
본문 미리보기
arXiv:2606.19509v1 Announce Type: new Abstract: Large language models (LLMs) are increasingly applied to structured clinical data, yet whether they can recognize the limits of their own knowledge on such tasks remains unexplored. We study this question through the lens of cross-model attribution divergence with the goal of reducing epistemic uncertainty for structured tasks, comparing Qwen 2.5 7B and XGBoost on a prediction task via attribution divergence analysis. We report four findings. Firs
전체 내용이 궁금하다면?
원문을 직접 읽어보세요