DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models

출처:arXiv cs.AI

✨ AI 인사이트

🧑‍💻 개발자

1.DeFAb: 공적 자금으로 구축된 지식베이스를 변환한 반증 가능 알그의 추론 벤치마크
2.규칙 기반 논리 솔버는 50마이크로초 내 100% 정확도, 최고 프론티어 모델은 65%에 그침
3.렌더링 강건성 평가 시 최고 모델 정확도가 23.5%로 하락, CoT 분산이 모델간 격차 초과
4.18개 소스·3,375만 규칙에서 372,648개 이상 인스턴스 생성, MIT 라이선스 공개

💡

왜 중요한가?

다항시간 검증으로 유도 타당성·보수성·최소성을 강제해 '유창하지만 이론 파괴적' 답변이 아닌 규율 있는 이론 수정을 채점하며, 같은 검증기를 DPO·GRPO의 정확한 보상으로 재활용할 수 있다.

🏷️ 언급 프로젝트

DeFAb CONJURE DeFAb-Hard

본문 미리보기

arXiv:2606.18557v1 Announce Type: new Abstract: A rule-based logic solver resolves every instance in our benchmark in under 50 microseconds with 100% accuracy; the best frontier language model reaches 65% at best and drops to 23.5% under rendering-robust evaluation (worst case over four surface renderings). We introduce DeFAb (Defeasible Abduction Benchmark), a dataset and generation pipeline that converts four decades of publicly funded knowledge bases into formally grounded instances for defe

전체 내용이 궁금하다면?

원문을 직접 읽어보세요

원문 보기

#파운데이션 모델#추론 벤치마크#논리 추론#LLM 평가

DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models

본문 미리보기

관련 글

MosaicLeaks: Can your research agent keep a secret?

CaVe-VLM-CoT: An Interpretable Vision-Language Model Framework

WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents

What Must Generalist Agents Remember?