배포 후 AI 에이전트가 시간이 지남에 따라 어떻게 성능이 저하되는지를 측정하는 AgingBench를 소개한다. 에이전트 노화를 압축·간섭·수정·유지보수 노화의 4가지 메커니즘으로 분류하고, 시간적 의존성 그래프와 반사실적 프로브로 쓰기·검색·활용 단계의 진단 프로파일을 생성한다. 14개 모델, 7개 시나리오, 400여 회 실행에 걸친 실험 결과 에이전트 노화가 단일 차원이 아님을 확인했다. 행동 테스트가 정상이어도 사실 정밀도가 하락할 수 있으며, 같은 오답도 진단 프로파일에 따라 다른 수리 방법을 필요로 한다. 신뢰 가능한 에이전트 배포는 초기 성능뿐 아니라 수명 평가와 단계별 수리가 필요하다.
- •에이전트 노화 4대 메커니즘: 압축(대화 압축), 간섭(기억 충돌), 수정(사실 갱신 후 잔류 오류), 유지보수(정기적 변경).
- •시간적 의존성 그래프와 쌍별 반사실적 프로브로 쓰기·검색·활용 단계의 세분화된 진단 프로파일 생성.
- •7개 시나리오, 14개 모델, 400+ 회 실행 결과: 행동 테스트 정상이어도 사실 정밀도 하락 가능, 노화는 다차원적.
- •신뢰 가능한 에이전트 배포는 초기 성능 강화뿐 아니라 수명 평가·메커니즘 수준 진단·단계별 수리를 필요로 한다.
Your Agents Are Aging Too: Agent Lifespan Engineering for Deployed Systems
- 1.AgingBench: 배포된 AI 에이전트의 장기 신뢰성을 측정하는 종단간 벤치마크: 압축·간섭·수정·유지보수 에이징 4가지 메커니즘 분류
- 2.7개 시나리오·14개 모델·8~200 세션 포함 400회+ 실행으로 에이징이 다차원적임을 확인
- 3.행동 테스트 통과시도 팩트 정밀도 하락 가능, 동일 모델내 파생 상태 추적이 급격히 붕괴
- 4.신뢰할 수 있는 에이전트 배포는 수명 평가·메커니즘수준 진단·단계별 수리가 필수
왜 중요한가?
기존 벤치마크가 초기 성능만 측정하는 반면, AgingBench는 배포 후 에이전트 열화를 메커니즘 단위로 진단해 실제 운영 시스템에 직결되는 새 평가 패러다임을 제시한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.26302v1 Announce Type: new Abstract: Long-lived AI agents are increasingly deployed as persistent operational systems, yet they are still evaluated like freshly initialized models. Day-one benchmarks miss a basic systems question: how long does an agent remain reliable after deployment? Even when model weights are frozen, an agent's effective state keeps changing as it compresses interaction history, retrieves from a growing memory store, revises facts after updates, and undergoes ro
전체 내용이 궁금하다면?
원문을 직접 읽어보세요