AI 시스템이 인간과 유사한 개념 이해를 갖추는지 검증하기 위해 비개연적 범주 구성원(예: '올리브는 차량인가?')을 활용한 새로운 탐침 전략을 제안했다. Rosch와 Mervis의 고전 심리학 연구를 기반으로 AI의 상위 범주 할당 패턴을 인간과 비교한 결과, '단어'를 차량이나 의류로 분류하는 등 여러 개념 불일치가 발견되었다. 이러한 개념 불일치가 AI 안전과 직결된 문제적 하위 행동으로 이어질 수 있음을 실증했다.
- •비개연적 범주 구성원 질문으로 AI의 개념적 범주 경계를 탐침하는 새로운 전략 제안
- •Rosch-Mervis 심리학 연구 기반 실험에서 AI가 '단어'를 차량·의류로, '채소'를 '과일'로 분류하는 등 인간과 의미 있는 차이 발견
- •비무기 범주 예시물을 '무기' 범주에 할당하는 등 AI 안전과 직결된 개념 불일치 사례 확인
- •개념 불일치가 하위 태스크에서 문제적 행동으로 이어질 수 있음을 실증
Investigating Concept Alignment Using Implausible Category Members
- 1.AI 시스템의 개념 경계 이해를 비합리적 콴테고리 구성원으로 탐색하여 인간과 의의미하게 다른 패턴 발견
- 2.모델이 '단어'를 '차량'으로, '야채'를 '과일'로 분류하는 등 인간과 다른 개념 비정렬 슬맬 발갬
- 3.Rosch-Mervis의 심리학적 상선 벤치마크에 기반하여 동일 오유 및 교차 포괄 할당 태스크에서 모델과 인간 응답 비교
- 4.개념 비정렬이 다운스트림 AI 안전 문제로 연결됨을 실증: 모델의 원칙 선택 실패 사례 시연
왜 중요한가?
AI 안전성의 근본 조건인 인간-AI 개념 정렬이 훈련 데이터에 풍부한 명시적 예시 외에 경계 사례에서 얼마나 취약한지를 심리학적 방법론으로 체계적으로 검증한 연구다.
본문 미리보기
arXiv:2605.21683v1 Announce Type: new Abstract: Developing AI systems with a human-like understanding of everyday concepts is a key step towards developing safe, reliable systems whose behavior makes sense to humans. When probing concept understanding, asking questions about plausible category members (e.g., "Is a car a vehicle?") is likely to recall patterns in the model's vast training data. We pursue an alternative strategy, characterizing the boundaries of conceptual categories by asking ab
전체 내용이 궁금하다면?
원문을 직접 읽어보세요