좋은 설명을 반사실적 설명(counterfactual explanation) 개념을 확장해 정의하되, 청자가 각 사실에 대해 가진 사전 믿음(prior beliefs)을 함께 고려해야 한다고 주장하는 논문이다. 단순히 반사실적 사실을 나열하는 것을 넘어, 설명을 받는 상대의 기존 믿음 상태에 따라 같은 설명도 가치가 달라진다는 점을 핵심으로 삼는다. 저자들은 이 정의를 바탕으로 LLM 출력에 대해 좋은 설명을 만들기 어려운 이유를 분석한다. AI 채택의 전제인 설명가능성(explainability)에 대한 이론적·철학적 기준을 제시한다.
- •좋은 설명을 반사실적 설명 개념을 확장해 정의
- •청자의 사전 믿음을 설명의 가치 판단에 반드시 포함해야 한다고 주장
- •이 정의를 통해 LLM 출력에 대한 좋은 설명 생성이 어려운 이유를 규명
- •AI 채택의 전제인 설명가능성에 대한 이론적·철학적 기준 제시
A Definition of Good Explanations and the Challenges Explaining LLM Outputs
본문 미리보기
arXiv:2606.14838v1 Announce Type: new Abstract: How to define a good explanation is a long-standing philosophical debate which has found recent renewed interest in the context of AI outputs. Explainability is crucial for AI adoption in many contexts, but in order to produce good explanations of AI systems, we must first have an understanding of what good explanations are. In this paper we propose a definition inspired by the notion of counterfactual explanations, however we argue that one must
전체 내용이 궁금하다면?
원문을 직접 읽어보세요