현대 LLM은 자신의 역량을 체계적으로 과대평가해 풀 수 없는 문제도 시도하는 경향이 있다. 이 연구는 이를 '능력 자기 평가(CSA)'로 정의하고 정책 학습 문제로 형식화했다. 강화학습이 CSA를 효과적으로 학습시키며 지도 미세 조정(SFT)보다 현저히 우수하고 원래 능력도 보존하는 반면, SFT는 평가하려는 능력 자체를 심각히 저하시켰다. 학습된 자기 평가는 분포 외(out-of-distribution)에서도 잘 일반화되며, 추론 시 로컬-클라우드 의사결정 개선과 학습 데이터 선택 신호로 실용적 활용이 가능하다.
- •LLM이 풀 수 없는 문제도 시도하는 역량 과대평가를 'Capability Self-Assessment(CSA)' 문제로 정의하고 정책 학습으로 형식화했다.
- •강화학습은 CSA를 효과적으로 학습시키면서 원래 능력을 보존하는 반면, SFT는 평가 대상 능력 자체를 심각히 저하시켰다.
- •학습된 자기 평가는 분포 외 데이터에서도 잘 일반화되어 CSA가 전이 가능한 모델 특성임을 시사한다.
- •CSA는 추론 시 로컬-클라우드 작업 위임 의사결정 개선과 학습 데이터 타겟 선택 신호로 실용적 가치를 가진다.
Capability Self-Assessment: Teaching LLMs to Know Their Limits
- 1.LLM 자기 한계 인식
- 2.문제 해결/위임 능력 향상
- 3.신뢰성 높은 AI 시스템 구축
왜 중요한가?
대규모 언어 모델(LLM)이 자신의 한계를 인식하고 필요시 작업을 위임하는 능력은 AI 시스템의 신뢰성과 안전성을 근본적으로 향상시킵니다. 이는 실제 응용에서 오용을 줄이고 효율성을 높이는 데 필수적입니다.
본문 미리보기
arXiv:2606.00251v1 Announce Type: new Abstract: The ability to recognize one's own limitations and decide whether to solve a problem or delegate is fundamental for reliable intelligent systems. Yet we show that modern large language models systematically lack this ability: across diverse model families and scales, they overestimate their competence and attempt queries they cannot solve. We refer to this ability as Capability Self-Assessment (CSA) and formulate it as a policy-learning problem, a
전체 내용이 궁금하다면?
원문을 직접 읽어보세요