LLM이 고교 수학을 푸는 능력은 거의 완벽하지만, 실제 학생의 다양한 추론 과정을 채점·평가하는 능력은 미흡함을 보인 연구다. 저자들은 실제 시험 답안 224건을 엄밀히 주석한 RealMath-Eval 벤치마크를 도입했고, 최신 LLM 심판조차 전문가 채점 대비 평균제곱오차(MSE) 약 2.96으로 크게 고전함을 확인했다. 반면 같은 심판이 합성 LLM 답안을 평가하면 MSE 약 1.17로 훨씬 정확해, 뚜렷한 '평가 격차'가 드러났다. 의미 임베딩 분석 결과 합성 오류는 예측 가능한 저차원 부분공간으로 '구조적 붕괴'를 보이는 반면 인간 오류는 더 다양했고, 인간 추론이 모델에게 더 분포 밖(높은 surprisal)이었다. 합성 데이터 중심 평가 파이프라인이 실제 학생 추론의 다양성을 못 담을 수 있음을 시사한다.
- •실제 고교 시험 답안 224건을 주석한 RealMath-Eval 벤치마크 도입
- •최신 LLM 심판도 인간 채점 대비 MSE 약 2.96으로 실제 학생 답안 평가에 크게 고전
- •합성 답안 평가 MSE 약 1.17과 대비되는 뛚렷한 '평가 격차' 확인
- •합성 오류는 저차원 부분공간으로 구조적 붕괴, 인간 오류는 더 다양하고 분포 밖
- •합성 데이터 중심 평가 파이프라인의 한계를 시사
RealMath-Eval: Why SOTA Judges Struggle with Real Human Reasoning
- 1.RealMath-Eval, 실제 고교 시험 답안 224개로 구성된 채점 벤치마크 공개
- 2.최신 LLM 판정자도 인간 채점 대비 MSE 2.96으로 크게 고전
- 3.합성 답안 채점은 MSE 1.17로 정확—실제 학생 추론에서 '평가 격차' 발생
- 4.합성 오류는 저차원 선형부분공간으로 붕괴, 인간 오류는 더 다양
왜 중요한가?
LLM이 수학 문제를 푸는 능력과 달리 실제 학생의 다양한 추론을 채점하는 능력은 크게 뒤떨어지며, 합성 데이터에 의존하는 현행 평가 파이프라인이 진짜 학생 추론의 다양성을 담지 못함을 정량적으로 드러냈다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2606.10254v1 Announce Type: new Abstract: While Large Language Models (LLMs) have achieved near-perfect performance in \emph{solving} high-school mathematics, their ability to \emph{evaluate} the diverse reasoning processes of real human students remains under-examined. To bridge this gap, we introduce \textbf{RealMath-Eval}, a rigorously annotated benchmark of 224 real-world exam responses from high schools. Our initial evaluation reveals that even state-of-the-art LLM judges struggle si
전체 내용이 궁금하다면?
원문을 직접 읽어보세요