LLM 심사관(judge)의 평가 점수가 루브릭에 크게 의존하는 문제를 측정 명세 관점에서 접근해, 인간 선호 쌍별 데이터로 정책 수준 루브릭을 발견하고 구조적 충분성·신뢰성·선호 적합도·적대적 강건성 4개 축으로 감사하는 PReMISE 프레임워크를 제안했다. 기존 루브릭 출처 중 네 가지 축을 동시에 만족하는 것이 없으며, 심사관 간 높은 일치도가 낮은 취약성을 보장하지 않음을 실증했다. PReMISE의 선호 순위 선택은 심사관 정확도를 65.0%에서 68.6%로 향상시키고, 신뢰성 제약 정제로 취약 응답이 고점수를 받는 비율을 46.4%에서 36.0%로 줄였다. LLM 심사관 기반 평가의 체계적 개선 경로를 제시한다는 점에서 AI 벤치마킹 실무에 직접적인 함의를 갖는다.
- •기존 루브릭 출잘는 신뢰성·선호 예측력·적대적 강건성을 동시에 만족하지 못하며, 심사관 간 높은 일치도가 낙은 취약성을 보장하지 않음을 실증했다.
- •PReMISE의 선호 순위 선택이 심사관 정확도를 65.0%→68.6%로 향상시키고, 신뢰성 제약 정제로 취약 응답 고점수 비율을 46.4%→36.0%로 감소시켰다.
- •루브릭을 측정 명세로 재정의하고 4축 감사를 통해 LLM 심사관 평가의 체계적 개선 경로를 제시한다.
PReMISE: Policy Rubrics as Measurement Specifications for LLM Judges
- 1.LLM 심판 평가에서 루브릭 품질이 점수를 좌우한다는 문제를 제기하고 PReMISE로 루브릭 자동 발견·감사
- 2.4가지 감사 축(구조·신뢰성·선호 적합·적대적 강건성)에서 기존 루브릭 소스는 모두 한계 드러남
- 3.preference-rank selection으로 심판 정확도 65→68.6%, 신뢰성 정제로 악용률 46→36%로 감소
왜 중요한가?
LLM 심판이 폭넓게 사용되는 상황에서 루브릭 명세가 결과를 결정한다는 점을 실증하고, 자동화된 루브릭 발견·수정 파이프라인으로 AI 평가 신뢰성을 실질적으로 높인다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.30803v1 Announce Type: new Abstract: LLM judges are increasingly used to evaluate open-ended responses, but their scores depend strongly on the rubrics that condition them. A vague rubric asking for a response to be ``helpful and factual'' can reward polished answers that invent facts or violate user intent. We treat reusable rubrics as measurement specifications: changing the rubric changes the response quality measurement induced by a fixed judge. We introduce PReMISE, a framework
전체 내용이 궁금하다면?
원문을 직접 읽어보세요