AgentTrust는 AI 에이전트의 도구 호출을 실행 전에 가로채 구조화된 판정(허용/경고/차단/검토)을 반환하는 런타임 안전 레이어이다. 셸 난독화 정규화기, SafeFix 대안 제안, RiskChain 다단계 공격 감지, LLM-as-Judge를 결합하며, 내부 벤치마크 95.0%, 외부 630개 실제 적대적 시나리오에서 96.7% 판정 정확도를 달성했다. AGPL-3.0 라이선스로 공개되었으며 MCP 호환 에이전트를 위한 MCP 서버를 제공한다.
- •AI 에이전트의 파일 작업, 셸 명령, HTTP 요청 등 도구 호출 하나가 돌이킬 수 없는 피해를 줄 수 있다.
- •AgentTrust는 셸 난독화 정규화, SafeFix 안전 대안 제안, RiskChain 다단계 공격 감지, LLM-as-Judge를 통합한 런타임 레이어다.
- •6개 위험 범주 300개 시나리오 내부 벤치마크에서 95.0%, 630개 실제 적대적 시나리오에서 96.7% 판정 정확도를 달성했다.
- •AGPL-3.0 오픈소스로 공개되었으며 MCP 호환 에이전트를 위한 MCP 서버를 포함한다.
AgentTrust: Runtime Safety Evaluation and Interception for AI Agent Tool Use
- 1.AI 에이전트 도구 호출을 실행 전 차단하는 런타임 안전 레이어 AgentTrust 발표
- 2.허용·경고·차단·검토의 구조화된 판정으로 파일 삭제·자격증명 노출 등 위험 방지
- 3.300개 시나리오 벤치마크 95.0% 정확도, 추가 630개 시나리오에서 96.7% 달성
- 4.MCP 호환 에이전트용 Model Context Protocol 서버로 AGPL-3.0 라이선스 공개
왜 중요한가?
에이전트가 파일 작업·쉘 명령·HTTP 요청 등 실제 부작용을 실행하는 환경에서 사전 차단 기반 런타임 안전 계층은 사후 평가 방식의 한계를 보완하는 핵심 기술이다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.04785v1 Announce Type: new Abstract: Modern AI agents execute real-world side effects through tool calls such as file operations, shell commands, HTTP requests, and database queries. A single unsafe action, including accidental deletion, credential exposure, or data exfiltration, can cause irreversible harm. Existing defenses are incomplete: post-hoc benchmarks measure behavior after execution, static guardrails miss obfuscation and multi-step context, and infrastructure sandboxes co
전체 내용이 궁금하다면?
원문을 직접 읽어보세요