SciRisk-Bench: A Risk-Dimension-Aware Benchmark for AI4Science Safety
- 1.SciRisk-Bench: AI4Science 안전성을 위험 차원과 과학 분야 양쪽으로 평가하는 벤치마크
- 2.7개 분야, 31개 세부분야, 10개 위험 차원을 포괄해 세밀 진단 가능
- 3.과학적 역량뿐 아니라 고위험 맥락의 위험 인식·회피 여부를 함께 평가
- 4.주류 LLM과 과학 특화 LLM을 차원·분야별로 평가해 미흡점을 식별
왜 중요한가?
LLM이 과학 질의응답·실험 계획·자율 발견에 깊이 들어오면서, 능력만이 아니라 고위험 맥락의 위험을 인식·회피하는지를 위험 차원 단위로 진단할 안전 벤치마크 필요성에 답한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2606.18936v1 Announce Type: new Abstract: Large language models (LLMs) are increasingly embedded in AI for Science (AI4Science) workflows, from scientific question answering and literature analysis to laboratory planning and autonomous discovery. This progress creates an urgent need for safety benchmarks that evaluate not only scientific competence, but also whether models recognize and avoid risks in high-stakes scientific contexts. Existing AI4Science safety datasets cover several disci
전체 내용이 궁금하다면?
원문을 직접 읽어보세요