고난도 시험 대비 채점을 위해 교육 당국의 교육과정·채점 지침에 근거를 두는 '커리큘럼 기반 LLM-as-Judge' 채점 파이프라인을 산업 파트너와 공동 개발했다. 파이프라인은 문항의 주제·세부주제·인지 요구를 식별하고, 규정 동사·성취 기준·성취수준 서술자·용어 정의·채점 원칙 같은 검증 가능한 공식 자료로 맥락을 구성한다. 단계적 LLM 워크플로로 먼저 문항별 루브릭을 생성한 뒤 채점 기준을 도출·평가해 일관성·투명성·공식 채점 관행과의 정합을 높인다. 예비 평가에서 인간 튜터에 견줄 만한 채점 결과를 내면서도 공식 자료에 더 추적 가능한 근거를 제시했고, 온라인 학습 플랫폼에 통합돼 초기 운영 데이터를 확보했다.
- •교육 당국 커리큘럼·채점 지침에 근거를 두는 커리큘럼 기반 LLM-as-Judge 채점 파이프라인 제안(대학 입시 대비)
- •규정 동사·성취 기준·성취수준 서술자·용어·채점 원칙 등 공식 자료로 검증 가능한 맥락 구성
- •단계적 워크플로로 문항별 루브릭 생성 후 채점 기준 도출·평가
- •예비 평가에서 인간 튜터에 견줄 채점 성능, 더 추적 가능한 근거 제시; 온라인 플랫폼 통합
LLM-as-Judge in Education: A Curriculum-Grounded Marking Pipeline
- 1.교육과정에 근거한 LLM 채점 파이프라인 'LLM-as-Judge'로 문항별 마킹 지원
- 2.지정 동사·성취기준·밴드 서술자 등 공인 교육과정 산출물로 판단 근거 확보
- 3.단계적 워크플로로 문항별 루브릭 생성 후 마킹 기준 도출·평가
- 4.예비 평가서 인간 튜터와 유사한 채점 결과, 더 추적 가능한 근거 제시·온라인 플랫폼 통합
왜 중요한가?
고부담 시험 준비에 LLM을 적용할 때 프롬프트 엔지니어링을 넘어, 공인 교육과정 산출물에 출력을 체계적으로 정합시키는 소프트웨어 파이프라인이 채점의 일관성·투명성 확보에 필요함을 보였다.
교육 분야에서 LLM을 활용한 시험 채점 파이프라인은 국내 교육 환경에 큰 변화를 가져올 잠재력을 지닙니다. 특히 고부담 시험의 공정성과 효율성을 높이는 데 기여하며, 교사의 업무 부담 경감과 개인 맞춤형 학습 피드백 제공 가능성을 열어줄 것입니다.
본문 미리보기
arXiv:2606.17507v1 Announce Type: new Abstract: Generative AI and large language models (LLMs) are increasingly applied to question generation and automated assessment. However, deploying LLMs in preparation for high-stakes exams requires more than prompt engineering; it demands software pipelines that systematically ground model outputs in authorised curriculum artefacts and marking guidelines issued by education authorities. This paper presents a curriculum-grounded, configurable LLM-as-Judge
전체 내용이 궁금하다면?
원문을 직접 읽어보세요