이 연구는 AI 기반 학습 시스템에서 절차적·다중추론(multi-hop) 능력을 평가할 질문-답변 데이터셋의 품질을, TMK(Task-Method-Knowledge) 모델 기반 질문 생성 전략별로 비교했다. 엄격한 TMK 생성, 대화록 우선 후 사후 TMK 필터링, 대화록과 구조적 지침을 결합한 TMK 인식 생성 세 전략을 비교하고, TMK에서 추출한 폐쇄형 증거 단위로 근거성을 검증하는 프레임워크를 도입했다. 23개 주제·690개 QA쌍 분석 결과, 엄격한 TMK 생성이 근거성 96.5%·사용가능 92.6%로 가장 우수했다. 대화록 우선 방식은 더 학습자다운 질문을 만들지만 맥락 의존적이고 근거가 약했고, TMK 인식 방식은 다중추론 커버리지는 높지만 근거성이 낮았다. 절차적 풍부함과 자연스러운 표현이 표현적 근거성을 보장하지 않음을 보여, 표현 인식형 검증의 필요성을 시사한다.
- •TMK 기반 질문 생성 전략 3가지가 절차적·다중추론 데이터셋 품질에 미치는 영향 비교
- •폐쇄형 증거 단위 기반 근거성 검증 프레임워크 도입
- •23개 주제·690개 QA쌍으로 평가
- •엄격한 TMK 생성이 근거성 96.5%·사용가능 92.6%로 최고 품질 달성
- •절차적 풍부함·자연스러운 표현이 표현적 근거성을 보장하지 않음
Constructing Evaluation Datasets for Procedural Reasoning: Balancing Naturalness, Grounding, and Multi-Hop Coverage
- 1.TMK 기반 질문 생성 3개 전략을 절차적·다중홉 추론 평가용으로 비교
- 2.엄격한 TMK 생성이 근거성 96.5%, 사용성 92.6%로 최고 품질 달성
- 3.트랜스크립트 우선 생성은 학습자다운 질문이나 근거성이 약함
- 4.근거 단위 기반 검증 프레임워크로 답변의 표현 근거성을 측정
왜 중요한가?
절차적 풍부함이나 자연스러운 표현이 곧 표현 근거성을 보장하지 않음을 690개 QA로 보여, AI 학습 지원 시스템의 평가 데이터셋에 표현 인지형 검증이 필요함을 입증한다.
AI 기반 학습 시스템의 절차적 추론 능력을 평가하는 데 있어, 자연스럽고 실제 교육 과정에 기반하며 다단계 추론을 포괄하는 데이터셋 구축은 핵심 과제입니다. 교육 분야 AI(AIEd) 개발에 적극적인 국내 기업 및 연구자들에게 이 연구는 평가 데이터셋의 품질을 높이고 AI 학습 시스템의 성능을 신뢰성 있게 검증하는 데 중요한 지침이 될 것입니다.
본문 미리보기
arXiv:2606.12767v1 Announce Type: new Abstract: Evaluating procedural reasoning in AI-supported learning systems requires question-answer datasets that are both learner-like and grounded in the instructional knowledge the system is expected to use. We study how TMK-based question generation strategies affect dataset quality for procedural and multi-hop reasoning. We compare three strategies: strict generation from Task-Method-Knowledge (TMK) models, transcript-first generation with post-hoc T
전체 내용이 궁금하다면?
원문을 직접 읽어보세요