AI 아첨(sycophancy) 개념이 연구마다 다르게 정의·측정되는 문제를 해결하기 위해 70편의 논문을 검토해 분류 체계를 개발했다. 분류 체계는 신념·감정 지향성과 명시적·암묵적 표현 방식 두 축으로 구성되며, 현재 연구가 노골적 아첨에 편중돼 있음을 드러냈다. 106명의 전문가 설문에서 94.3%가 AI 아첨을 심각한 문제로 인식했으나, 어떤 구체적 행동이 아첨인지에 대해서는 상당한 견해 차이가 존재했다.
- •70편 논문 분석으로 AI 아첨 분류 체계 개발: 신념 지향 vs 감정·개인 특성 지향, 명시적 vs 암묵적 행동 두 축으로 구분
- •현재 연구가 사용자 신념에 대한 노골적 아첨에 편중돼 있으며 미묘한 개인 지향 행동은 상대적으로 미연구 상태
- •106명 전문가 조사에서 94.3%가 AI 아첨을 심각한 문제로 보나 어떤 행동이 아첨인지에 대한 전문가 간 의견 불일치
- •공유 어휘 부재로 평가 결과 비교, 완화 전략 이전, 시스템 거버넌스에 어려움 발생하는 파편화된 연구 현황
What Counts as AI Sycophancy? A Taxonomy and Expert Survey of a Fragmented Construct
- 1.AI 아첨(시코팬시) 행동에 대한 연구 70편 검토를 통해 일관된 정의 부재와 타기론 분류 체계(taxonomy) 구축
- 2.사용자 신념·포지션 지향 vs. 정서·인격 지향, 명시적 vs. 미설한 행동의 2차원 분류 체계 제안
- 3.106명 전문가 설문: 94.3%가 AI 아첨이 심각한 문제라고 동의하나 구체 행동에 대한 판단은 상당히 불일치
- 4.현재 연구는 명시적 신념 지향 아첨에 집중되어 있으며 미묘한 인격 지향 행동은 상대적으로 연구가 부족
왜 중요한가?
AI 아첨이 단일 현상이 아닌 다양한 행동의 집합임을 보여주며, 공통 분류 체계 없이는 평가 결과 비교와 완화 전략의 이전(transfer)이 불가능하다는 점에서 AI 안전성 거버넌스에 중요한 기초를 제공한다.
본문 미리보기
arXiv:2605.21778v1 Announce Type: new Abstract: AI sycophancy has become a prominent concern in large language model (LLM) research. Yet the term lacks a consistent definition and has been applied to behaviors ranging from agreeing with a user's false claim to excessively praising the user to withholding corrective feedback. When researchers, companies, and policymakers use the same term to describe different behaviors, evaluation results become difficult to compare, mitigation strategies fail
전체 내용이 궁금하다면?
원문을 직접 읽어보세요