Mask-Proof는 실제 수학 증명을 자동 점검 가능한 '마스킹된 단계' 과제로 변환하는 파이프라인으로, 긴 증명의 단계별 추론을 확장 가능하고 재현 가능하게 측정하는 공백을 메운다. 핵심 수식 단계를 가리고 필요한 주변 맥락을 제공한 뒤, 반복 투표로 안정성을 높인 LLM 기반 동치 판정자로 모델의 재구성을 평가한다. 다양한 연구 분야의 엄선된 292개 문제로 구성된 Mask-ProofBench를 만들었고, 17개 모델 실험에서 추론 강화 모델이 표준 모델을 12~27% 능가했다. 평가자는 전문가 주석과 96.8% 일치해 단계별 수학 추론의 신뢰할 만하고 재현 가능한 측정을 가능케 한다.
- •실제 증명을 자동 점검 가능한 마스킹된 단계 과제로 변환하는 Mask-Proof 파이프라인
- •핵심 수식 단계를 가리고 맥락 제공 후 반복 투표 LLM 동치 판정자로 재구성 평가
- •다양한 분야 292개 문제의 Mask-ProofBench 구축
- •17개 모델 중 추론 강화 모델이 표준 대비 12~27% 우수
- •평가자가 전문가 주석과 96.8% 일치, 재현 가능한 단계별 추론 측정 실현
Mask-Proof: An LLM-based Automated Data Curation Pipeline on Mathematical Proofs
본문 미리보기
arXiv:2606.15258v1 Announce Type: new Abstract: Large language models (LLMs) are increasingly capable of mathematical problem solving and can even assist with research-level proofs, yet we still lack a scalable and reproducible way to measure step-level reasoning in long proofs across diverse sources. This evaluation gap limits trustworthy AI assistance in proof-certified scientific progress. Existing evaluations often emphasize final answers or rely on costly expert grading, while end-to-end p
전체 내용이 궁금하다면?
원문을 직접 읽어보세요