LLM 에이전트의 영속적 상태(트랜스크립트·요약·메모리 버퍼)에서 발생하는 '메모리 세탁(memory laundering)' 현상을 연구합니다. 독성 컨텍스트가 메모리 요약으로 압축되면 표준 독성 탐지기를 우회하면서도 적대적 영향을 유지합니다. 서브임계 전파 갭(SPG)을 도입해 이 숨겨진 영향을 정량화하며, 독성 상태의 요약 전 정화가 가장 효과적임을 보여줍니다. 완성된 요약만 정화하는 것은 세탁된 영향을 남길 수 있어 불충분합니다.
- •독성 컨텍스트가 메모리 요약으로 압축되면 독성 탐지기를 통과하면서도 적대적 영향을 유지하는 '메모리 세탁' 현상을 연구합니다.
- •서브임계 전파 갥5(SPG)을 도입해 안전 모니터가 정상으로 분류하는 메모리 상태의 다운스트림 행동 차이를 정량화합니다.
- •독성 상태의 요약 전 정화가 가장 효과적이며, 완성된 요약만 정화하는 것은 세탁된 영향을 남길 수 있습니다.
- •메모리 강화 에이전트의 안전은 개별 출력이 아닌 진화하는 컨텍스트에 대한 상태 제어 문제로 접근해야 합니다.
State Contamination in Memory-Augmented LLM Agents
- 1.'메모리 세탁' 현상: 독성 컨텍스트가 메모리 요약으로 압축되어 일반 독성 탐지기를 우회 가능
- 2.서브임계 전파 갭(SPG)을 도입해 안전으로 분류된 메모리의 숨겨진 하위 영향 측정
- 3.독성 상태를 요약 전 정제해야 효과적이며, 완성된 요약만 정화하는 방식은 불충분
왜 중요한가?
메모리 증강 에이전트의 안전성을 단순 출력 필터링이 아닌 상태 제어 문제로 재정의하며, 에이전트 보안 설계에 새로운 관점을 제공한다.
본문 미리보기
arXiv:2605.16746v1 Announce Type: new Abstract: LLM agents increasingly rely on persistent state, including transcripts, summaries, retrieved context, and memory buffers, to support long-horizon interaction. This makes safety depend not only on individual model outputs, but also on what an agent stores and later reuses. We study a failure mode we call memory laundering: toxic or adversarial context can be compressed into memory summaries that no longer appear toxic under standard detectors, whi
전체 내용이 궁금하다면?
원문을 직접 읽어보세요