AgentWall은 로컬 AI 에이전트의 모든 제안 행동을 호스트 환경 도달 전에 가로채는 런타임 안전성 및 관찰 가능성 레이어입니다. 명시적 선언적 정책으로 행동을 평가하고, 민감한 작업에 인간 승인을 요구하며, 완전한 실행 기록을 유지합니다. 정책 강제 MCP 프록시로 구현되어 Claude Desktop, Cursor, Windsurf, Claude Code 등에서 단일 설치로 동작합니다. 14개 벤치마크 테스트에서 서브밀리초 오버헤드로 92.9%의 정책 적용 정확도를 달성했습니다.
- •AgentWall은 에이전트 행동을 호스트 환경 도달 전에 가로채 선언적 정책으로 평가하고 민감 작업에 인간 승인을 요구합니다.
- •MCP 프록시 및 OpenClaw 플러그인으로 구현되어 Claude Desktop, Cursor, Windsurf, Claude Code에서 단일 설치로 작동합니다.
- •14개 벤치마크에서 서브밀리초 오버헤드로 92.9%의 정책 적용 정확도를 달성하며 오픈소스로 공개되었습니다.
AgentWall: A Runtime Safety Layer for Local AI Agents
- 1.AgentWall: 로컈 AI 에이전트의 모든 제안 액션을 실행 전 가로채 선언적 정책으로 평가하는 런타임 안전 레이어
- 2.정책 시행 MCP 프록시로 구현되어 Claude Desktop, Cursor, Windsurf, Claude Code 등 주요 플랫폼 지원
- 3.14개 벤치마크 테스트에서 92.9% 정책 시행 정확도, 1밀리초 미만 오버헤드 달성
왜 중요한가?
모델 정렬·입력 필터링으로 해결할 수 없는 에이전트 실행 단계의 보안 공백을 런타임 레이어로 메우는 접근법으로, 로컬 환경에서 AI 에이전트를 안전하게 운영하려는 개발자에게 실용적 솔루션을 제공한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.16265v1 Announce Type: new Abstract: The safety of autonomous AI agents is increasingly recognized as a critical open problem. As agents transition from passive text generators to active actors capable of executing shell commands, modifying files, calling APIs, and browsing the web, the consequences of unsafe or adversarially manipulated behavior become immediate and tangible. Existing AI safety work has focused primarily on model alignment and input filtering, but these approaches d
전체 내용이 궁금하다면?
원문을 직접 읽어보세요