LLM의 중간 레이어에 할루시네이션 신호가 더 강하게 인코딩된다는 선행 연구에서 출발해, 고성능 레이어를 자동으로 선택하는 일관된 기준이 없다는 문제를 해결한다. 기존 레이어 선택 기준들이 다양한 LLM 아키텍처·규모·태스크에서 일관된 성능을 내지 못함을 확인했다. 이에 훈련 없이 적용 가능하고 계산 오버헤드가 거의 없는 FEPoID(첫 번째 유효 내재 차원 피크) 기준을 제안했다. FEPoID는 QA·요약 할루시네이션 탐지 벤치마크에서 기존 기준과 베이스라인을 일관되게 초과하며, 추가 절단 전략으로 탐지 성능을 더 향상시켰다.
- •기존 레이어 선택 기준들은 다양한 LLM 아키텍처·규모·태스크에서 일관된 성능을 보이지 못함.
- •FEPoID(First Effective Peak of Intrinsic Dimension): 내재 차원의 첫 번째 유효 피크를 기준으로 최적 레이어를 자동 선택 — 훈련 불필요, 계산 오버헤드 미미.
- •QA 및 요약 할루시네이션 탐지 벤치마크에서 기존 기준과 베이스라인을 일관되게 초과하는 성능 달성.
- •입력 절단(truncation) 전략으로 할루시네이션 신호 증폭, 탐지 성능 추가 향상. 코드 공개.
Automatic Layer Selection for Hallucination Detection
- 1.LLM 중간 레이어에 환각 신호가 집중된다는 특성을 활용한 자동 레이어 선택 방법 연구
- 2.기존 기준들이 다양한 LLM 구조·규모·태스크에서 일관된 성능을 냅자 못함을 실증
- 3.FEPoID(내재적 차원의 첫 유효 피크): 훈련 없이 최적 레이어를 일관되게 식별하는 새 기준 제안
- 4.절단 전략 추가로 환각 신호를 증폭해 탐지 성능 향상
왜 중요한가?
훈련 없이 LLM 레이어 선택을 자동화하는 FEPoID는 QA·요약 등 다양한 환각 탐지 파이프라인에 즉시 적용 가능하며, 기존 방법 대비 일관된 성능 우위를 보인다.
본문 미리보기
arXiv:2605.26366v1 Announce Type: new Abstract: Recent studies on hallucination detection have shown that hallucination-related signals are more strongly encoded in intermediate layers than in the final layer of large language models (LLMs). Although a growing body of work has sought to exploit this property for hallucination detection, how to automate the selection of high-performing layers remains underexplored, and principled methods for this purpose are still lacking. To address this gap, w
전체 내용이 궁금하다면?
원문을 직접 읽어보세요