DeepSciVerify는 LLM이 생성한 보고서에서 주장과 인용 문헌 간 불일치를 검증하는 2단계 파이프라인으로, 초록 수준 추론으로 먼저 검증하고 불확실한 사례만 전문 패시지로 에스컬레이션한다. SCitance 벤치마크에서 Micro-F1 86.7을 달성해 추상 전용 강력 기준선 대비 +4.5포인트 향상됐으며, 전체 사례의 67%를 전문 텍스트 검색 없이 해결해 정확도와 효율을 동시에 개선했다. 모델별 보수적·결정적 판단 성향 차이를 보완적으로 조합해 시스템 성능을 높인다는 설계가 특징이다.
- •초록 수준 추론으로 우선 검증하고 불확실 사례만 전문 패시지로 에스컬레이션하는 2단계 설계다.
- •SCitance 벤치마크 Micro-F1 86.7로 추상 전용 강력 기준선 대비 +4.5포인트 향상됐다.
- •전체 사례의 67%를 전문 텍스트 검색 없이 해결해 효율적이다.
- •모델별 보수적·결정적 판단 성향을 상호 보완적으로 조합해 정확도를 향상시킨다.
DeepSciVerify: Verifying Scientific Claim--Citation Alignment via LLM-Driven Evidence Escalation
- 1.DeepSciVerify: 과학 주장-인용 정합성 2단계 검증 파이프라인, 초록 후 불확실 케이스만 전문 에스컬레이션
- 2.SCitance 벤치마크 Micro-F1 86.7점, 초록 전용 베이스라인 대비 +4.5점 달성
- 3.전체 67%는 전문 검색 없이 처리, 정확도·효율성 동시 확보
- 4.LLM별 보수적·결단적 행동 차이를 상호 보완적으로 활용하는 앙상블 설계
왜 중요한가?
LLM 보고서에서 주장-인용 불일치가 빈번한 문제를 초록→전문 2단계 에스컬레이션으로 해결, 67%를 전문 검색 없이 처리하면서도 정확도를 높여 과학 문서 자동검증 시스템의 실용화 가능성을 높인다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.27710v1 Announce Type: new Abstract: Misalignment between claims and their cited evidence is a common failure mode in reports generated by large language models, limiting their reliability in scientific and other high-stakes settings. We present DeepSciVerify, a two-stage pipeline for scientific claim-citation verification that combines abstract-level reasoning with selective escalation to passage-level evidence. The system first verifies claims using the abstract and defers uncertai
전체 내용이 궁금하다면?
원문을 직접 읽어보세요