GPT-5.5를 활용한 인간-AI 하이브리드 워크플로로 ClinicalTrials.gov 레코드를 스크리닝·분류해 임상 시험에서의 AI 용어 추세와 지리적 분포를 분석했다. 시간에 따라 AI 관련 시험이 뚜렷이 증가했으며, 특히 머신러닝·딥러닝·챗봇·GPT·LLM 관련 시험이 최근 급증했고, 중국과 미국이 AI 관련 시험 수 상위를 차지했다. 무작위 100건 샘플에서 인간과 AI 분류자 간 인간-AI 상호작용 분류 일치도가 낮아, 하이브리드 스크리닝의 실용성은 인정되나 명확한 상호작용 정의와 개선된 보고 기준이 필요함을 시사했다.
- •ClinicalTrials.gov 분석 결과 AI 관련 임상 시험이 시간에 따라 크게 증가했으며, 최근에는 LLM·GPT·챗봇 관련 시험이 급증했다.
- •중국·미국이 AI 임상 시험 수 상위를 차지하고, 이탈리아·프랑스·스페인·영국·튀르키예에서도 최근 증가세가 두드러진다.
- •GPT-5.5와 인간의 하이브리드 스크리닝에서 AI 비활용 연구 식별 일치도는 높지만, 인간-AI 상호작용 분류에서는 일치도가 낙았다.
- •하이브리드 스크리닝의 실용성은 인정되나, 명확한 상호작용 정의와 개선된 시험 보고 기준이 분류 정확도 향상에 필요하다.
Trends in AI and Human-AI Interaction in Clinical Trials -- A Hybrid Human-AI Exploration
- 1.ClinicalTrials.gov 분석: AI 임상시험 급증 — ML·딥러닝·GPT·LLM 언급 최근 큰 폭 증가
- 2.지리 분포: 중국·미국이 AI 임상시험 최다, 이탈리아·프랑스·영국·터키에서도 최근 증가
- 3.GPT-5.5 활용 하이브리드 인간-AI 스크리닝 탐색 — AI 미사용 사례 분류 일치도는 높으나 인간-AI 상호작용 분류에서 낮음
왜 중요한가?
임상시험 AI 활용 급증에도 표준화된 인간-AI 상호작용 정의가 부재해 AI 기반 스크리닝 신뢰성 저하 우려 — 명확한 보고 기준 마련의 시급성을 시사한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.29096v1 Announce Type: new Abstract: This paper examines records retrieved from the ClinicalTrials.gov registry to characterize temporal trends in AI terminology and the geographical distribution of AI trials. The work also reports on an exploratory hybrid human-AI approach to analyzing human-AI interaction trends in registered clinical trials. The hybrid workflow comprised a frontier generative AI model (GPT-5.5) and human review to screen and categorize records returned by an AI-fo
전체 내용이 궁금하다면?
원문을 직접 읽어보세요