합성 근거(rationale) 데이터로 지도 미세조정(SFT)하면 임상 예측이 좋아진다는 통념을, 5년 알츠하이머·관련 치매(ADRD) 예측 과제로 검증해 반박한 연구다. 504개 구성의 대규모 통제 실험에서 근거 기반 SFT는 라벨만 쓰는 미세조정보다 예측 성능을 일관되고 크게 떨어뜨렸으며, 이 저하는 모델 계열과 데이터 규모를 막론하고 지속됐고 추론 특화 베이스 모델로도 해소되지 않았다. 원인은 근거 품질이 아니었다—전문가 검증 결과 생성된 근거는 의학적으로 정확하고 환자별 증거에 충실했으며, 같은 근거를 추론 시점 예시로 쓰면 오히려 성능이 향상됐다. 저자들은 '서사적 그럴듯함'과 '판별 최적화' 사이의 구조적 충돌을 근본 원인으로 지목했다.
- •합성 근거 기반 SFT가 임상 예측을 개선한다는 통념을 ADRD 예측으로 반박
- •504개 구성 실험에서 근거 기반 SFT가 라벨 전용 대비 성능을 일관되게 저하
- •저하는 모델 계열·데이터 규모 무관하게 지속, 추론 특화 모델로도 미해소
- •근거는 의학적으로 정확했으며 추론 시점 예시로 쓰면 오히려 성능 향상
- •근본 원인은 서사적 그럴듯함과 판별 최적화 간의 구조적 충돌
Supervised Fine-tuning with Synthetic Rationale Data Hurts Real-World Disease Prediction
- 1.합성 근거 데이터로의 SFT가 임상 예측 성능을 일관되게 크게 저하시킴
- 2.504개 구성 대규모 실험서 5년 ADRD 치매 예측으로 검증
- 3.생성된 근거는 의학적으로 정확—품질 문제가 아님을 전문가 검증으로 확인
- 4.근본 원인은 서사적 그럴듯함과 판버 최적화 간의 구조적 충돌
왜 중요한가?
근거를 학습시키면 예측이 좋아진다는 통념과 정반대로, 의학적으로 정확한 근거조차 학습 타깃으로 쓰면 오히려 성능을 해친다는 결과는, 고위험 임상 예측에서 근거 기반 지도학습을 언제 써야 하는지에 대한 재검토를 요구한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2606.10279v1 Announce Type: new Abstract: Supervised fine-tuning with synthetic rationale data is widely assumed to improve language model performance on clinical prediction tasks by teaching models not just what to predict but why. We test this assumption on five-year Alzheimer's disease and related dementias (ADRD) prediction from longitudinal health histories. Across a large-scale controlled experiment of 504 configurations, we find that rationale-based SFT consistently and substantial
전체 내용이 궁금하다면?
원문을 직접 읽어보세요