State Contamination in Memory-Augmented LLM Agents | AIChainDay

🇰🇷 한국어 요약by Claude · 2026. 5. 20.

LLM 에이전트의 영속적 상태(트랜스크립트·요약·메모리 버퍼)에서 발생하는 '메모리 세탁(memory laundering)' 현상을 연구합니다. 독성 컨텍스트가 메모리 요약으로 압축되면 표준 독성 탐지기를 우회하면서도 적대적 영향을 유지합니다. 서브임계 전파 갭(SPG)을 도입해 이 숨겨진 영향을 정량화하며, 독성 상태의 요약 전 정화가 가장 효과적임을 보여줍니다. 완성된 요약만 정화하는 것은 세탁된 영향을 남길 수 있어 불충분합니다.

•독성 컨텍스트가 메모리 요약으로 압축되면 독성 탐지기를 통과하면서도 적대적 영향을 유지하는 '메모리 세탁' 현상을 연구합니다.
•서브임계 전파 갥5(SPG)을 도입해 안전 모니터가 정상으로 분류하는 메모리 상태의 다운스트림 행동 차이를 정량화합니다.
•독성 상태의 요약 전 정화가 가장 효과적이며, 완성된 요약만 정화하는 것은 세탁된 영향을 남길 수 있습니다.
•메모리 강화 에이전트의 안전은 개별 출력이 아닌 진화하는 컨텍스트에 대한 상태 제어 문제로 접근해야 합니다.

AI2026년 5월 19일AI 점수: 95%

State Contamination in Memory-Augmented LLM Agents

출처:arXiv cs.AI

✨ AI 인사이트

🧑‍💻 개발자

1.'메모리 세탁' 현상: 독성 컨텍스트가 메모리 요약으로 압축되어 일반 독성 탐지기를 우회 가능
2.서브임계 전파 갭(SPG)을 도입해 안전으로 분류된 메모리의 숨겨진 하위 영향 측정
3.독성 상태를 요약 전 정제해야 효과적이며, 완성된 요약만 정화하는 방식은 불충분

💡

왜 중요한가?

메모리 증강 에이전트의 안전성을 단순 출력 필터링이 아닌 상태 제어 문제로 재정의하며, 에이전트 보안 설계에 새로운 관점을 제공한다.

본문 미리보기

arXiv:2605.16746v1 Announce Type: new Abstract: LLM agents increasingly rely on persistent state, including transcripts, summaries, retrieved context, and memory buffers, to support long-horizon interaction. This makes safety depend not only on individual model outputs, but also on what an agent stores and later reuses. We study a failure mode we call memory laundering: toxic or adversarial context can be compressed into memory summaries that no longer appear toxic under standard detectors, whi

전체 내용이 궁금하다면?

원문을 직접 읽어보세요

원문 보기