DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models
- 1.DeFAb: 공적 자금으로 구축된 지식베이스를 변환한 반증 가능 알그의 추론 벤치마크
- 2.규칙 기반 논리 솔버는 50마이크로초 내 100% 정확도, 최고 프론티어 모델은 65%에 그침
- 3.렌더링 강건성 평가 시 최고 모델 정확도가 23.5%로 하락, CoT 분산이 모델간 격차 초과
- 4.18개 소스·3,375만 규칙에서 372,648개 이상 인스턴스 생성, MIT 라이선스 공개
왜 중요한가?
다항시간 검증으로 유도 타당성·보수성·최소성을 강제해 '유창하지만 이론 파괴적' 답변이 아닌 규율 있는 이론 수정을 채점하며, 같은 검증기를 DPO·GRPO의 정확한 보상으로 재활용할 수 있다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2606.18557v1 Announce Type: new Abstract: A rule-based logic solver resolves every instance in our benchmark in under 50 microseconds with 100% accuracy; the best frontier language model reaches 65% at best and drops to 23.5% under rendering-robust evaluation (worst case over four surface renderings). We introduce DeFAb (Defeasible Abduction Benchmark), a dataset and generation pipeline that converts four decades of publicly funded knowledge bases into formally grounded instances for defe
전체 내용이 궁금하다면?
원문을 직접 읽어보세요