RIFT-Bench는 LLM 기반 에이전트 AI 시스템을 동적으로 레드팀 평가하는 그래프 표현 기반 방법론이다. 시스템 구조를 추출하는 Discovery 단계와 적응형 적대적 공격을 투입해 평가 리포트를 생성하는 Scanning 단계로 자동 작동하며, 계층적 표현을 통해 이질적인 에이전트 아키텍처를 통합 비교한다. 45개의 다양한 에이전트 시스템에서 효과를 입증했고, 공격뿐 아니라 방어·완화 전략까지 직접 평가할 수 있다. 구현·도메인에 종속되지 않는 통합 보안 평가 기반을 제시한다는 점에서 에이전트 AI 보안 연구에 실용적 토대를 마련한다.
- •Discovery(구조 추출)와 Scanning(적대적 공격·리포트 생성) 두 단계로 완전 자동화된 동적 레드팀 파이프라인
- •계층적 그래프 표현으로 이질적 에이전트 아키텍처 간 통합 비교 가능
- •45개의 다양한 에이전트 시스템에 적용해 일반화 성능 입증
- •공격 평가를 넘어 완화·방어 전략까지 직접 평가 지원
- •특정 구현·도메인에 종속되지 않는 확장 가능한 보안 평가 기반
RIFT-Bench: Dynamic Red-teaming For Agentic AI Systems
본문 미리보기
arXiv:2606.23927v1 Announce Type: new Abstract: Agentic AI systems powered by large language models (LLMs) are rapidly evolving into autonomous decision-making systems, exposing attack vectors beyond those of traditional LLM vulnerabilities. Existing security evaluations are often tied to specific implementations or domains, limiting unified comparison across heterogeneous systems. To address this gap, we introduce RIFT-Bench, a graph representation-driven methodology for dynamic red-teaming th
전체 내용이 궁금하다면?
원문을 직접 읽어보세요