다양한 태스크에서 LLM의 신뢰도 보정(calibration)을 사전 등록 연구로 조사한 결과, LLM은 사람처럼 평균적으로 과잉확신(신뢰도 > 정확도)을 나타냈다. 이 경향은 강력한 난이도 효과에 의해 조절되는데, 어려운 테스트에서 과잉확신이 가장 크고 쉬운 테스트에서는 오히려 과소확신이 나타난다. 이를 평가하기 위해 다양한 난이도 수준을 아우르는 신뢰도 보정 벤치마크 LifeEval을 개발했다. LLM 배포 시 난이도에 따른 신뢰도 편향을 고려한 보정이 필요함을 시사한다.
- •LLM은 사람과 유사하게 평균적으로 과잌확신을 보이며 신뢰도가 실제 정확도를 초과함.
- •난이도 효과: 어려운 문제에서 과잌확신이 심화되고 쉬운 문제에서는 과소확신으로 반전.
- •다양한 난이도 수준에서 신뢰도 보정을 평가하는 LifeEval 벤치마크 개발.
Confidence Calibration in Large Language Models
- 1.사전 등록 연구로 현재 LLM들이 사람처럼 자신의 정답률보다 높은 자신감을 보이는 과신 경향을 보임을 확인
- 2.어려운 테스트일수록 과신이 크고 쉬운 테스트에서는 오히려 자신감 부족이 나타나는 hard-easy 효과 발견
- 3.난이도별 모델 보정을 평가하는 새 벤치마크 LifeEval 개발
왜 중요한가?
LLM의 신뢰도 표현이 난이도에 따라 체계적으로 왜곡되어 있음을 사전 등록 연구로 실증, 의료·법률 등 고위험 분야에서 AI 신뢰도 수치를 그대로 신뢰해서는 안 됨을 강조한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.23909v1 Announce Type: new Abstract: We investigate the calibration of large language models' (LLMs') confidence across diverse tasks. The results of our preregistered study show that the current crop of LLMs are, like people, too sure they are right: confidence exceeds accuracy, on average. Importantly, however, this tendency is moderated by a powerful hard-easy effect, wherein overconfidence is greatest on difficult tests; by contrast, easy tests actually show substantial underconf
전체 내용이 궁금하다면?
원문을 직접 읽어보세요