자율 개선 루프는 보통 에이전트에 외부 스캐폴딩으로 덧붙여져 실패가 기록되지 않고 재현·감사도 어려운데, 이벤트 소싱 런타임이 이 마찰을 없애 통제된 개선을 일급 워크플로로 만든다는 것을 보인 연구다. 에이전트 상태가 추가 전용 이벤트 로그의 결정론적 투영일 때 실패가 기록되고 실행이 정확히 재현되며, 후보 패치가 타입화된 파이프라인 경계에 한정되고 모든 승격·폐기가 그 자체로 이벤트가 된다. 저자들은 ActiveGraph 런타임 위의 Regimes 루프로 실패한 평가를 진단하고 수리안을 제안한 뒤 정적 검사·샌드박스 실행·표본 내 평가·홀드아웃 검증을 통과한 경우에만 승격한다. LongMemEval-S의 주요 실패는 검색이 아니라 '조정(reconciliation)'—맥락에 증거가 있는데도 오답—이었고, 다섯 분할 중 넷에서 홀드아웃 정확도를 +0.05~+0.10 개선했다.
- •이벤트 소싱 런타임이 통제된 개선을 일급 워크플로 만든다는 점을 입증
- •추가 전용 로그의 결정론적 투영으로 실패 기록·정확한 재현·감사 가능한 게이트 확보
- •Regimes 루프는 정적 검사·샌드박스 실행·표본 내·홀드아웃 검증 후에만 승격
- •LongMemEval-S의 주요 실패는 검색이 아닌 '조정'—맥락에 증거가 있어도 오답
- •다섯 홀드아웃 분할 중 넷에서 정확도 +0.05~+0.10 개선
Regimes: An Auditable, Held-Out-Gated Improvement Loop Demonstrated on LongMemEval with ActiveGraph
- 1.이벤트 소싱 런타임으로 자율 개선 루프를 감사·재생 가능한 일급 워크플로구현
- 2.Regimes, 실패한 평가를 진단하고 파이프라인 지점의 수리를 제안
- 3.정적검사·샌드박실행·홈드아웃 검증 후에만 수리를 승급
- 4.LongMemEval-S 주요 실패는 검색이 아닌 증거 해석·조합의 오류
왜 중요한가?
자율 개선 루프가 외부 스캐폴딩이라 실패가 기록·재현되지 않아 신뢰하기 어렵던 문제를, 추가 전용 이벤트 로그 기반 런타임으로 모든 승급·폐기를 감사 가능한 이벤트로 만들어 통제된 자기개선을 일급 워크플로로 전환했다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2606.10241v1 Announce Type: new Abstract: Autonomous improvement loops are hard to trust because the improvement process is usually external scaffolding bolted onto the agent: failures go unlogged, diagnoses cannot be replayed, and promote-or-discard decisions land in a side database rather than the agent's own history. We show that an event-sourced agent runtime removes that friction and turns controlled improvement into a first-class workflow. When the agent's state is a deterministic p
전체 내용이 궁금하다면?
원문을 직접 읽어보세요