Instruction Bleed: Cross-Module Interference in Prompt-Composed Agentic Systems
- 1.프롬프트 모듈 하나를 수정하면 다른 모듈 동작이 바뀌는 '구성적 행동 누설(CBL)'을 정식화
- 2.트랜스포머 자기어텐션이 연결된 모듈 간 경계를 제공하지 않는 비격리가 원인
- 3.Claude Sonnet 4.6 채용평가 에이전트 144회 실험서 내용 채널만 유의효과(d=0.63)
- 4.추천 결과는 안 뒤집혔으나 표준 QA로 안 보이는 임계 이하 누적 효과 경고
왜 중요한가?
프롬프트 조합형 에이전트가 공유 변수 없이도 모듈 간 간섭을 일으킴을 실증해, 모듈 단위 평가만으로는 부족하며 교차 모듈 간섭 측정이 필수 평가 항목이 되어야 함을 제기한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2606.26356v1 Announce Type: new Abstract: Practitioners of prompt-composed agentic systems report a recurring failure mode: editing one prompt module silently shifts the behavior of others despite no shared variable or executable dependency. We formalize this as compositional behavioral leakage (CBL): interference between modules sharing a context window. CBL is enabled by architectural non-isolation: transformer self-attention provides no formal boundary between concatenated modules. We
전체 내용이 궁금하다면?
원문을 직접 읽어보세요