LLM 환각 탐지 벤치마크의 설계 요건을 체계화하고 기존 벤치마크의 두 가지 주요 격차인 긴 맥락의 RAG 기반 벤치마크 부재와 현실적 레이블 노이즈 부재를 확인합니다. 이를 해결하기 위해 RAG 기반 환각 탐지 벤치마크 TRIVIA+를 오픈소스로 공개하며, 문헌 내 가장 긴 맥락과 다양한 노이즈 레이블 세트를 포함합니다. 실험 결과 현재 탐지기들의 성능 향상 여지가 크고, 레이블 노이즈가 탐지 성능을 저하시킴을 확인했습니다.
- •환각 탐지 벤치마크의 이상적 속성을 정의하고 기존 벤치마크의 두 가지 핵심 격차를 파악했습니다.
- •RAG 기반 환각 탐지 벤치마크 TRIVIA+를 오픈소스 공개하며, 문헌 내 가장 긴 맥락을 포함합니다.
- •현재 SOTA 탐지기들은 RAG 기반 벤치마크에서 여전히 성능 향상 여지가 크게 남아 있습니다.
- •레이블 노이즈가 탐지 성능을 저하시키므로 현실적인 노이즈 모델링이 중요합니다.
Rethinking Evaluation for LLM Hallucination Detection: A Desiderata, A New RAG-based Benchmark, New Insights
- 1.기존 LLM 환각 탐지 벤치마크의 한계를 분석하고 이상적 벤치마크 요건 정의
- 2.장문 컨텍스트 RAG 기반 환각 탐지 벤치마크 TRIVIA+ 오픈소스 공개
- 3.현실적 레이블 노이즈 4종 세트를 포함해 스트레스 테스트 지원
- 4.기본 LLM-as-Judge 베이스라인이 최신 탐지기와 경쟁력 있는 성능 발휘
왜 중요한가?
RAG 기반 환각 탐지 연구의 공백을 채우는 고품질 벤치마크를 제공하며, 레이블 노이즈가 탐지 성능에 미치는 영향을 처음으로 체계적으로 분석한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.11330v1 Announce Type: new Abstract: Hallucination, broadly referring to unfaithful, fabricated, or inconsistent content generated by LLMs, has wide-ranging implications. Therefore, a large body of effort has been devoted to detecting LLM hallucinations, as well as designing benchmark datasets for evaluating these detectors. In this work, we first establish a desiderata of properties for hallucination detection benchmarks (HDBs) to exhibit for effective evaluation. A critical look at
전체 내용이 궁금하다면?
원문을 직접 읽어보세요