LLM이 자신의 내부 상태를 진정으로 내성(introspect)할 수 있다는 기존 연구의 결론이 성급하다는 것을 두 가지 평가 패러다임 재검토로 보였다. 첫 번째 패러다임에서 모델은 내부 상태 개입과 입력 조작을 신뢰 있게 구별하지 못했고, 두 번째에서는 입력만 보는 분류기가 모델 자신의 예측과 동등한 성능을 냈다. 재레이블링 통제 조건에서 모델 성능이 우연 수준에 근접했다. 행동 증거만으로는 LLM의 진정한 내성 능력을 입증하기 근본적으로 불충분하다는 결론이다.
- •LLM 내성 주장 재반력: 진정한 내성과 표면 단서 기반 패턴 매칭을 구별하지 않으면 내성 결론은 성급함.
- •내부 상태 개입 탐지 실험에서 모델이 개입과 입력 조작을 구별하지 못함 — 일반적 이상 탐지 능력을 내성으로 혈동한 결과.
- •숨겨진 상태 레이블 예측에서 입력만 보는 분류기와 모델 자기 예측이 동등한 성능 — 내부 표현에 대한 특권 접근 없음을 시사.
- •재레이블링 통제 조건(의미론에 의존 불가)에서 모델 성능이 우연 수준에 근접, 행동 증거만으로 LLM 내성 주장은 기본적으로 입증 불충분.
Can LLMs Introspect? A Reality Check
- 1.LLM이 자신의 내부 상태를 탐지·보고할 수 있다는 기존 주장을 인간 메타인지 관점에서 재검토
- 2.모델이 내부 상태 개입과 입력 조작을 신뢰성 있게 구별하지 못함을 실험으로 확인
- 3.숨겨진 상태 예측 과제에서 입력만 접근하는 분류기가 모델의 인쮳 예측과 동등한 성능 달성
- 4.재라벨링 통제 설정에서 모델 성능이 랜덤 수준에 근접해 진정한 내성 능력 미입증
왜 중요한가?
LLM 자기인식 능력에 대한 긍정적 결론들이 표면적 패턴 매칭에서 비롯됐을 가능성을 체계적으로 제시해, AI 안전·해석가능성 연구에서 평가 설계의 엄격성 필요성을 재확인한다.
본문 미리보기
arXiv:2605.26242v1 Announce Type: new Abstract: Can large language models detect and report their own internal states? A number of studies have argued that the answer to this question is yes. We argue, based on lessons from human metacognition research, that this conclusion may be premature: to be convinced of this conclusion we need to distinguish genuine introspection from pattern matching based on surface-level cues. Furthermore, we argue that behavioral evidence alone is inherently insuffic
전체 내용이 궁금하다면?
원문을 직접 읽어보세요