LLM 에이전트의 실제 소분자 약물 설계(SMDD) 성능을 체계적으로 평가하기 위해 SMDD-Bench를 소개했다. 5가지 작업 유형과 102개 고유 단백질 표적을 포함한 502개 풀기 가능한 다중 턴 과제로 구성되며, 최고 성능 LLM인 GPT5.4조차 과제의 40.2%만 해결했다. 이 벤치마크는 LLM 에이전트의 자율적 약물 설계 역량이 아직 미흡함을 시사하며, 표준화된 평가 기반을 제공한다.
- •5가지 작업 유형(2D 파마코포어 식별, 상호작용 포인트 발견, 스캐폴드 호핑, 리드 최적화, 단편 조립)의 502개 과제로 구성된 SMDD-Bench 소개
- •102개 고유 단백질 표적을 포함하며 강한 화학·생물학적 추론과 3D 직관, 전문 도구 사용 능력 요구
- •최고 성능 모델인 GPT5.4도 전체 과제의 40.2%만 해결해 LLM의 자율적 약물 설계 역량 한계 확인
- •공개 리더보드(smddbench.com) 제공으로 LLM 에이전트 평가 표준화에 기여
SMDD-Bench: Can LLMs Solve Real-World Small Molecule Drug Design Tasks?
- 1.LLM 에이전트의 소분자 신약 설계 역량을 평가하는 SMDD-Bench 벤치마크를 새롭게 도입
- 2.502개 보장 해결 과제(5가지 유형)와 102개 단백질 표적을 포함한 다중 턴 장기 평가 구성
- 3.최고 성능 모델 GPT5.4도 40.2% 과제만 해결, 자율 신약 설계에는 아직 뚜렷한 한계
- 4.smddbench.com에서 공개 리더보드 운영하며 표준 평가 생태계 구축 목표
왜 중요한가?
LLM 에이전트의 신약 설계 적용 가능성을 표준화된 방식으로 평가하는 대규모 벤치마크로, AI 기반 자율 신약 개발 연구의 기준점이 될 것으로 기대된다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.21740v1 Announce Type: new Abstract: LLM agents have incredible potential for scientific discovery applications. However, the performance of LLM agents on real-world, small molecule drug design (SMDD) tasks across diverse chemistries and targets is unclear. Current evaluation methods are either ad hoc, too simple for real-world discovery, limited in scale, or restricted to single-turn question answering. In effort to standardize the evaluation of LLM agents on small molecule design,
전체 내용이 궁금하다면?
원문을 직접 읽어보세요