연구진은 학술의료센터의 전자건강기록(EHR)에 통합된 임상 LLM 시스템을 실제 배포 환경에서 평가했다. 정답률만 측정하는 정적 벤치마크의 한계를 넘어, 응답 생성 전에 질의 내용과 배포 맥락(진료과·제공자 유형·사용 모델)만으로 사용자가 해당 응답을 거부할 위험을 예측하는 사전 분류기를 학습시켰다. 4.5개월간의 사용자 피드백을 대상으로 한 전향적 분석에서 이 모델은 AUROC 0.719를 기록했으며, 질의 내용만 쓸 때보다 배포 맥락을 함께 활용할 때 거부 예측 성능이 향상됐다. 이는 가드레일 작동이나 응답 보류 같은 안전장치를 표적화할 수 있음을 보여, 희소한 피드백 환경에서도 임상 AI의 실사용성을 끌어올릴 길을 제시한다.
- •EHR에 내장된 임상 LLM을 정답률이 아닌 사용자 수용 관점에서 배포 환경 평가
- •응답 생성 전 질의·배포 맥락으로 사용자 거부 위험을 추정하는 사전 분류기 학습
- •4.5개월 전향 분석에서 거부 예측 AUROC 0.719 달성
- •질의 내용만이 아니라 진료과·제공자 유형·사용 모델 등 배포 맥락 활용 시 예측력 향상
- •가드레일 작동·응답 보류 등 표적형 안전장치 적용 가능성 입증
Deployment-Centered Evaluation: Predicting Query-Level Rejection Risk in a Clinical LLM System
- 1.EHR에 통합된 임상 LLM의 응답을 사용자가 거부할 위험을 생성 이전에 예측하는 분류기 제안
- 2.4.5개월간 실사용 피드백을 전향적으로 분석해 예측 모델이 AUROC 0.719 달성
- 3.질의 내용뿐 아니라 진료과·제공자 유형·사용 모델 등 배포 맥락이 거부 예측 정확도를 높임
- 4.예측 결과를 가드레일 작동과 응답 보류(abstention) 두 다운스트림 용도에 활용 가능
왜 중요한가?
정적 벤치마크가 정답률만 측정해 실제 사용자 수용도를 놓치던 한계를, 응답 생성 전 배포 맥락만으로 거부 위험을 예측해 보완했다. 임상 현장에 바로 적용 가능한 선제적 가드레일·응답 보류 메커니즘의 실현 가능성을 실증했다는 점에서 의료 LLM 안전성 평가 방식의 전환을 시사한다.
LLM이 임상 시스템에 통합되는 국내 의료 환경에서, 실제 사용자의 수용도와 거부 위험을 예측하는 '배포 중심 평가'는 매우 중요합니다. 정적 벤치마크의 한계를 넘어 사용자 관점에서 임상 LLM 시스템의 실용적 유용성을 평가하는 이 연구는 국내 디지털 헬스케어 AI의 성공적인 도입과 신뢰성 확보에 필수적인 통찰을 제공합니다.
본문 미리보기
arXiv:2606.12702v1 Announce Type: new Abstract: Large language models (LLMs) are increasingly integrated into clinical systems, making it essential to evaluate the real-world utility of these systems. However, static benchmarks tend to measure correctness rather than user acceptance, aggregate performance across queries, and require densely annotated datasets -- leading to major blind spots for evaluating clinical systems. In this work, we perform a deployment-centered evaluation of an LLM syst
전체 내용이 궁금하다면?
원문을 직접 읽어보세요