이 연구는 LLM의 자기보고(self-report)가 실제 행동을 신뢰성 있게 예측하는지를 검증했다. 기존 연구가 인간에서도 예측력이 약한 Big 5 성격 특성에 의존했던 점을 지적하고, 특정 행동에 대한 의도를 측정하는 '계획행동이론(TPB)'과 비교했다. 4개 행동 과제와 11개 프런티어 LLM을 대상으로 세션 맥락과 정체성 부여를 달리한 실험 결과, 자기보고-행동 일관성은 존재하나 선택적이었다. 같은 대화 안에서는 TPB가 인간 수준의 일관성에 도달했지만 Big 5는 그렇지 못했고, 별도 대화에서는 훈련으로 형성된 암묵적 편향처럼 맥락 밖에 고정된 행동만 일관성이 유지되며 아첨처럼 맥락에 강하게 좌우되는 행동은 붕괴했다. 페르소나 프롬프트는 자기보고를 일관되게 만들지만 행동을 정렬시키지는 못했다. 안전 배포를 위해서는 과제·행동별 정밀 측정 도구가 필요하다는 결론이다.
- •LLM 자기보고가 실제 행동을 예측하는지를 Big 5와 계획행동이론(TPB) 비교로 검증
- •4개 행동 과제·11개 프런티어 LLM 대상 세션 맥락·정체성 변인 실험
- •같은 대화 내에서는 TPB가 인간 수준 일관성 도달, Big 5는 미달
- •별도 대화에서는 훈련로 고정된 행동만 일관성 유지, 아첨처럼 맥락 의존 행동은 붕괴
- •페르소나 프롬프트는 자기보고 일관성만 높일 뿐 행동 정렬은 못 시킴
Rethinking Psychometric Evaluation of LLMs: When and Why Self-Reports Predict Behavior
- 1.LLM 자기보고가 실제 행동을 예측하는지 11개 모델·4개 과제로 검증
- 2.계획행동이론(TPB)이 같은 대화 내에서 인간 수준 일관성 도달
- 3.Big5 광범위 성격 특성은 행동 예측 일관성을 확보하지 못함
- 4.사이코판시처럼 문맥에 강하게 점화된 행동은 대화 간 일관성 붕괴
왜 중요한가?
안전 배포를 위한 저비용 심리측정 프로브가 언제·왜 행동을 예측하는지 가려내, Big5 같은 거친 성격 틀 대신 과제·행동 특화 도구가 필요하며 그조차 맥락별 검증이 필수임을 보인다.
LLM의 안전한 배포를 위해 저비용 심리 측정 방식으로 LLM의 행동 경향을 예측하는 것은 국내에서도 중요한 과제입니다. 이 논문은 LLM의 자기 보고(self-report)가 실제 행동을 언제, 왜 예측하는지에 대한 재고를 요구하며, 국내 기업들이 LLM의 신뢰성과 윤리적 사용을 확보하는 데 필요한 평가 방법론 개선에 기여할 것입니다.
본문 미리보기
arXiv:2606.12730v1 Announce Type: new Abstract: Anticipating LLM behavioral tendencies from low-cost psychometric probes is critical for safe deployment, but only if self-reports (SR) reliably predict behavior. Recent work documented substantial SR-behavior dissociation in LLMs, but relied on broad personality traits (Big 5) that predict specific behaviors weakly, even in humans. Furthermore, the isolation of conversational sessions combined with weak context matching left open whether LLMs tru
전체 내용이 궁금하다면?
원문을 직접 읽어보세요