Amrita Sarkar의 의료 AI 구축 실전 가이드 — Fine-Tuning vs RAG 선택 기준을 3개월 난임 인텔리전스 엔진 구축 경험으로 정리. 새벽 2시 LLM이 AMH·갑상선 항체 상호작용 가이드라인을 할루시네이션으로 생성한 사건이 출발점. **Fine-Tuning**: 모델의 '레지던시' — 5만 건 annotated 랩 리포트로 Anti-Müllerian Hormone 변형표기 정규화처럼 안정·특수 vocabulary 영역에 적합. 단 지식 동결 + 비싼 annotate + 할루시네이션이 임상 권위 목소리로 포장되는 위험. **RAG**: '완벽한 참고 서가 가진 임상의' — 벡터 임베딩 + 검색 + 프롬프트 주입으로 ESHRE·Cochrane 같은 동적 근거 매번 참조. 단 검색 품질·지연·컨텍스트 윈도우·chunking 전략이 bottleneck. Ovviia 사례: 언어 정규화는 fine-tune, 권고 엔진은 RAG로 하이브리드. 궁극 질문은 '시스템이 모를 때 모른다고 할 수 있는가' — 불확실성 레이어가 의료 AI의 신뢰 결정 요인.
- •Fine-Tuning = '레지던시', 지식 내재화 / RAG = '참고 서가', 매번 검색 후 생성.
- •Fine-Tuning 적합 사례: AMH·호르몬 용어 정규화 등 안정·특수 vocabulary.
- •RAG 적합 사례: ESHRE·Cochrane 기반 동적 치료 권고 — 출처 추적 필수.
- •Fine-tuned 모델은 할루시네이션을 '임상 권위 목소리'로 포장해 더 위험.
- •Ovviia 하이브리드 = 언어층 fine-tune + 권고층 RAG — 의료 AI 설계 표준.
Fine-Tuning vs. RAG for Medical AI: A Builder’s Honest Guide
- 1.의료 AI는 Fine-Tuning vs RAG 단순 선택이 아닌 레이어별 조합.
- 2.안정·특수 vocabulary(용어 정규화) → Fine-Tuning.
- 3.동적 근거·출처 추적(치료 권고) → RAG.
- 4.Fine-tuned 모델의 할루시네이션이 '임상 권위 톤'으로 더 위험.
- 5.'시스템이 모를 때 모른다고 말하는가'가 최종 신뢰 결정 요인.
왜 중요한가?
한국 헬스케어 AI 스타트업·대학병원 AI 연구팀이 난임·유전체·영상진단 등 의료 LLM 제품을 설계할 때 실전 의사결정 프레임. 특히 의료기기 SaMD 인증 과정에서 '출처 추적 가능성'이 평가 기준이라 RAG + uncertainty layer 설계가 규제 필수 요소가 되는 흐름과 직결.
전체 내용이 궁금하다면?
원문을 직접 읽어보세요