VeryTrace는 자연어 추론 트레이스를 구조화된 컴파일 가능 표현으로 형식화해 검증·수정하는 제로샷 프레임워크다. CoT 추론은 초기 단계의 논리 오류나 환각이 조용히 전파돼 자신감 있지만 틀린 결론을 내는 취약성이 있다. VeryTrace는 (1) 단계 간 의존성을 명시하고 (2) 정량적 내용을 실행 가능한 수식으로 기계화하며 (3) 의미 추론을 연역 스키마로 구조화하는 도메인 특화 언어(DSL)를 도입한다. 하이브리드 검증기는 계산 정확성·의존성 해결·제약 충족에 대한 결정론적 검사와 기계화 불가능한 의미 판단에 대한 표적 LLM 감사를 결합해 단계 수준 오류 위치 파악과 수정을 가능하게 한다. 경시수학(AIME 2025), 로보틱스 계획(LLM-BabyBench), 친족 추론(CLUTRR) 세 도메인에서 도메인 특화 학습이나 인컨텍스트 예시 없이 제로샷 베이스라인 대비 정확도를 높였다.
- •자연어 추론 트레이스를 컴파일 가능한 구조 표현으로 형식화하는 제로샷 검증·수정 프레임워크
- •단계 의존성 명시·정량 내용 실행화·의미 추론 연역 스키마를 위한 DSL 도입
- •결정론적 검사와 표적 LLM 감사를 결합한 하이브리드 검증기로 단계 수준 오류 위치 파악·수정
- •AIME 2025·LLM-BabyBench·CLUTRR 세 도메인에서 제로샷 베이스라인 대비 정확도 향상
- •도메인 특화 학습이나 인컨텍스트 예시 없이 정밀성과 일반화 동시 달성
VeryTrace: Verifying Reasoning Traces through Compilable Formalism and Structured Verification
본문 미리보기
arXiv:2606.24124v1 Announce Type: new Abstract: Multi-step reasoning with Chain-of-Thought (CoT) prompting remains fragile: logical errors or hallucinations in early steps silently propagate, producing confident but incorrect conclusions. This paper presents VeryTrace, a zero-shot verification-and-repair framework that formalizes natural-language reasoning traces into a structured, compilable representation. VeryTrace introduces a Domain-Specific Language (DSL) that (i) makes step dependencies
전체 내용이 궁금하다면?
원문을 직접 읽어보세요