5개 최전선 LLM(Claude Sonnet 4.6, GPT 5.5, Gemini 3 Flash, DeepSeek V3.1, Qwen3.5 397B)에서 추론 모드가 도덕 판단을 변경하는지 평가한 연구이다. 100개 시나리오에 걸쳐 즉각 모드와 추론 모드 간 이진 판정 합의는 높고 통계적으로 구분되지 않지만, 21개 논쟁 시나리오에서 추론 모드는 교차 모델 불일치를 방향적으로 좁혔다. 추론 모드는 모든 모델에서 이진 판정보다 자체 레이블 윤리 프레임워크를 더 자주 변경하며, 인구통계적 판단 불일치도 감소시킨다.
- •5개 최전선 LLM에서 즉각 모드와 추론 모드 간 이진 판정 합의는 높고 통계적으로 구분되지 않는다.
- •21개 모델 논쟁 시나리오에서 추론 모드는 교차 모델 불일치를 방향적으로 좌혀 평균 쌍별 합의를 5.4에서 6.7/10으로 높였다.
- •추론 모드는 5개 모델 중 3개에서 인구통계적 판단 불일치를 줄이고 어느 모델에서도 증가시키지 않았다.
- •모든 모델 패밀리에서 추론 모드는 이진 판정보다 자체 레이블 윤리 프레임워크를 더 자주 변경한다.
How Does Thinking Mode Change LLM Moral Judgments? A Controlled Instant-vs-Thinking Comparison Across Five Frontier Models
- 1.5개 최전선 LLM에서 사고 모드 활성화가 도덕 판단에 미치는 영향 평가
- 2.전체 이진 판단 동의율은 즉각·사고 모드 간 통계적 차이 없음(Krippendorff α 0.78 vs 0.79)
- 3.논쟁적 21개 시나리오에서 사고 모드가 모델 간 불일치를 방향적으로 감소
- 4.5개 모델 중 3개에서 사고 모드가 인구통계학적 판단 불일치 감소
왜 중요한가?
AI 시스템의 도덕적 판단 일관성은 신뢰성과 안전성의 핵심이며, 추론 모드 활성화가 논쟁적 상황에서 모델 간 불일치를 줄일 수 있는지 최초로 체계적으로 분석한 연구다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.04488v1 Announce Type: new Abstract: We evaluate whether enabling provider-exposed reasoning mode changes moral judgments within the same model checkpoint. Across 100 moral-judgment scenarios and five frontier reasoning-trained LLMs (Claude Sonnet 4.6, GPT 5.5, Gemini 3 Flash, DeepSeek V3.1, and Qwen3.5 397B), aggregate binary-verdict agreement remains high and statistically indistinguishable between instant and thinking modes (Krippendorff's alpha = 0.78 vs. 0.79). However, disagree
전체 내용이 궁금하다면?
원문을 직접 읽어보세요