연방 기관이 공공 의견 코퍼스 분류에 LLM을 활용할 때 모델 간 불일치를 해석적 복잡성의 진단 신호로 삼아 인간 검토를 집중시키는 '해석적 감사 파이프라인'을 제안했다. USDA 의견 1,260건에 4개 LLM을 적용한 결과 모델 간 주제 불일치가 동일 모델 내 프롬프트 변이보다 크고, 전문가 루브릭도 깊은 해석적 불일치를 해소하지 못했다. 2단계 레이블링 연구에서 인간 주석자가 앙상블에 없는 새로운 관점을 자주 추가해, 정책 결정에 영향을 미치는 공공 의견 분류에서 정확도 지표 외에 불일치 기반 평가가 필수 보완책임을 보였다.
- •모델 간 주제 불일치를 진단 신호로 활용해 애매한 공공 의견에 인간 검토를 집중시키는 해석적 감사 파이프라인을 제안했다.
- •USDA 의견 1,260건에서 4개 LLM의 모델 간 불일치가 동일 모델 내 프롬프트 변이보다 크게 나타났다.
- •전문가 루브릭을 적용해도 깊은 해석적 불일치는 해소되지 않았으며, 인간 주석자는 앙상블에 없는 새로운 관점을 자주 추가했다.
- •정책 결정에 영향을 미치는 공공 의견 분류에서 정확도 지표만으로는 부족하며, 불일치 기반 평가가 필수 보완임을 시사한다.
When Models Disagree: Rethinking LLM Evaluation for Public Comment Analysis
- 1.USDA 공공 의견 1,260개를 4개 LLM으로 분류 — 모델 간 주제 분기가 단일 모델 내 프롬프트 변동보다 큼
- 2.전문가 루브릭이 해석 불일치를 억제하나 해결 못함 — 표준 정확도 지표만으로는 모델 간 해석 차이 감지 불가
- 3.인간 주석자의 재검토에서 LLM 앙삼블에 없는 새로운 프레이밍 빈번히 등장 — 불일치 기반 감사가 필수 보완 수단
왜 중요한가?
정부 정책 결정에 LLM 활용 시 모델 선택이 어떤 공공 의견이 정책 결정자에게 전달되는지를 구조적으로 편향시킬 수 있어, 공공 부문 LLM 도입에서 해석 다양성 감사가 필수적임을 보여준다.
본문 미리보기
arXiv:2605.29025v1 Announce Type: new Abstract: Federal agencies are deploying large language models (LLMs) to categorize public comment corpora, where the model's organization of the record shapes what policymakers see and which arguments register. Standard evaluation, anchored on stance accuracy against a small validated set, cannot detect when different models produce materially different categorizations of the same public input. We propose an Interpretive Audit Pipeline that treats multi-mo
전체 내용이 궁금하다면?
원문을 직접 읽어보세요