이 연구는 CT 영상과 종단 EHR 데이터를 결합해 사건 발생 시간(TTE)을 예측하는 파운데이션 모델 기반 교차 모달 정렬 프레임워크를 제안한다. 두 모달리티를 도메인 특화 파운데이션 모델로 각각 인코딩한 뒤 후기 융합·대조 정렬·교차 어텐션·공동 어텐션 네 가지 전략으로 공유 잠재 공간에서 정렬한다. 폐색전증(PE) 사망률과 심혈관질환(CVD) 결과 두 과제, 다기관 코호트에서 모달리티 기여가 비슷할 때 융합이 일치도 지수를 단일 모달 대비 1.5~5.4% 향상시켰다. 대조 융합(특히 CLMBR 표현)이 가장 일관되고 통계적으로 견고했으며, 과제·환경에 따라 최적 융합 방식이 달라져 '과제 인지형 멀티모달 정렬'이 견고한 일반화의 필수 설계 원칙임을 보인다.
- •CT 영상과 종단 EHR을 파운데이션 모델로 인코딩해 공유 잠재 공간서 정렬하는 TTE 예측 프레임워크
- •후기 융합·대조 정렬·교차 어텐션·공동 어텐션 네 가지 융합 전략 비교
- •모달리티 기여가 비슷할 때 융합이 일치도 지수를 단일 모달 대비 1.5~5.4% 향상
- •대조 융합(CLMBR)이 가장 일관·견고, PE 사망률 예측에서 특히 우수
- •최적 융합은 과제·환경에 따라 달라져 과제 인지형 정렬이 일반화의 필수 원칙
Fusion is not one-size-fits-all: Cross-Modal Representation Alignment for Time-to-Event Modeling
본문 미리보기
arXiv:2606.15038v1 Announce Type: new Abstract: Accurate time-to-event (TTE) prediction from multimodal clinical data remains challenging due to modality imbalance and distribution shift. We introduce a foundation model-driven framework for cross-modal representation alignment between CT imaging and longitudinal EHR data, designed to generalize across tasks and institutions. CT and EHR modalities are encoded independently using domain-specific foundation models and aligned in a shared latent sp
전체 내용이 궁금하다면?
원문을 직접 읽어보세요