과학적 AI 에이전트가 보건처럼 고위험 영역에서 증거를 종합해 결론을 도출하는 능력을 평가한다. SciConBench는 체계적 문헌고찰에서 추출한 9,110개 질문과 전문가 작성 결론으로 구성된 대규모 라이브 벤치마크로, 결론을 원자적 사실로 분해해 사실 정밀도·재현율을 측정한다. 데이터 누출을 막기 위해 통제된 웹 상호작용을 제공하는 클린룸 평가 도구 SciConHarness도 도입했다. 8개 프런티어 모델·딥리서치 에이전트 평가에서 최고 에이전트조차 사실 F1이 0.337에 그쳤고, 클린룸 설정이 성능을 일관되게 낮춰 누출이 능력을 과대평가했음을 시사한다. 구글 AI 오버뷰·OpenEvidence 같은 소비자용 에이전트도 정답이 있어도 불완전하거나 모순된 결론을 자주 냈다.
- •체계적 문헌고찰 기반 9,110개 질문·전문가 결론으로 구성된 라이브 벤치마크 SciConBench 도입
- •결론을 원자적 사실로 분해해 사실 정밀도·재현율 측정, 누출 방지용 클린룸 도구 SciConHarness 제공
- •8개 프런티어 모델 평가에서 최고 에이전트도 사실 F1 0.337에 그침
- •구글 AI 오버뷰·OpenEvidence 등 소비자 에이전트도 불완전·모순된 결론 빈발
Can AI Agents Synthesize Scientific Conclusions?
- 1.과학적 결론 합성 능력을 평가하는 대규모 라이브 벤치마크 SciConBench(9.11K 문항) 공개
- 2.결론을 원자적 사실로 분해해 사실 정밀도·재현율로 정확성·포괄성을 측정하는 자동 평가 파이프라인
- 3.데이터 누출 차단용 클린룸 하너스 SciConHarness 도입, 최고 에이전트도 사실 F1 0.337에 그침
- 4.Google AI Overview·OpenEvidence 등 소비자 에이전트가 정답이 있어도 불완전·모순된 결론 생성 확인
왜 중요한가?
건강 등 고위험 영역에서 AI 에이전트의 과학적 결론 합성 신뢰성이 낮다는 점을 대규모로 실증하고, 데이터 누출이 능력을 과대평가하게 만든다는 점을 클린룸 평가로 드러냈다. 소비자용 의료 AI의 결론이 자주 불완전·모순적이라는 감사 결과는 실사용 안전성에 경종을 울린다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2606.11337v1 Announce Type: new Abstract: Scientific AI agents increasingly retrieve evidence, reason across sources, and synthesize conclusions used in consequential decisions. Yet, their ability to do so in high-stakes domains such as health remains unclear. We introduce SciConBench, a large-scale live benchmark of 9.11K questions and expert-written conclusions from systematic reviews to evaluate open-domain scientific conclusion synthesis. The benchmark draws on an expert-validated aut
전체 내용이 궁금하다면?
원문을 직접 읽어보세요