Revisiting Chain-of-Thought Reasoning under Limited Supervision: Semi-supervised Chain-of-Thought Learning
- 1.비지도 CoT 학습을 정의하고 의사 추론 감독을 만드는 Semi-CoT 프레임워크 제안
- 2.미표시 질문마다 다수 의사-CoT를 샘플링해 의미 엔트로피로 신뢰 체인 선별
- 3.의사-정답 정밀도 91.36~100%로 엔트로피 게이트가 고품질 CoT 선택
- 4.SVAMP·GSM8K는 소폭 향상, AQuA는 부정 전이, MultiArith는 상한 도달
왜 중요한가?
기존 CoT는 추론 흔적을 추론 시점 프롬프트로만 쓰고 학습 신호로 재활용하지 못했는데, Semi-CoT는 미표시 질문에서 신뢰할 만한 의사 추론 감독을 뽑아내 준지도 학습으로 확장할 가능성을 보였으나 데이터셋별 효과 편차가 한계다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2607.01511v1 Announce Type: new Abstract: Chain-of-thought (CoT) reasoning has emerged as an effective approach for activating latent reasoning capabilities in large language models. However, most existing CoT methods use reasoning chains mainly as inference-time prompts, while the generated reasoning traces are rarely reused as semi-supervised learning signals. In this report, we define \textbf{Semi-supervised Chain-of-Thought Learning} and propose \textbf{Semi-CoT}, a simple framework t
전체 내용이 궁금하다면?
원문을 직접 읽어보세요