Regimes: An Auditable, Held-Out-Gated Improvement Loop Demonstrated on LongMemEval with ActiveGraph | AIChainDay

🇰🇷 한국어 요약by Claude · 2026. 6. 10.

자율 개선 루프는 보통 에이전트에 외부 스캐폴딩으로 덧붙여져 실패가 기록되지 않고 재현·감사도 어려운데, 이벤트 소싱 런타임이 이 마찰을 없애 통제된 개선을 일급 워크플로로 만든다는 것을 보인 연구다. 에이전트 상태가 추가 전용 이벤트 로그의 결정론적 투영일 때 실패가 기록되고 실행이 정확히 재현되며, 후보 패치가 타입화된 파이프라인 경계에 한정되고 모든 승격·폐기가 그 자체로 이벤트가 된다. 저자들은 ActiveGraph 런타임 위의 Regimes 루프로 실패한 평가를 진단하고 수리안을 제안한 뒤 정적 검사·샌드박스 실행·표본 내 평가·홀드아웃 검증을 통과한 경우에만 승격한다. LongMemEval-S의 주요 실패는 검색이 아니라 '조정(reconciliation)'—맥락에 증거가 있는데도 오답—이었고, 다섯 분할 중 넷에서 홀드아웃 정확도를 +0.05~+0.10 개선했다.

•이벤트 소싱 런타임이 통제된 개선을 일급 워크플로 만든다는 점을 입증
•추가 전용 로그의 결정론적 투영으로 실패 기록·정확한 재현·감사 가능한 게이트 확보
•Regimes 루프는 정적 검사·샌드박스 실행·표본 내·홀드아웃 검증 후에만 승격
•LongMemEval-S의 주요 실패는 검색이 아닌 '조정'—맥락에 증거가 있어도 오답
•다섯 홀드아웃 분할 중 넷에서 정확도 +0.05~+0.10 개선

AI2026년 6월 10일AI 점수: 86%

Regimes: An Auditable, Held-Out-Gated Improvement Loop Demonstrated on LongMemEval with ActiveGraph

출처:arXiv cs.AI

✨ AI 인사이트

🧑‍💻 개발자

1.이벤트 소싱 런타임으로 자율 개선 루프를 감사·재생 가능한 일급 워크플로구현
2.Regimes, 실패한 평가를 진단하고 파이프라인 지점의 수리를 제안
3.정적검사·샌드박실행·홈드아웃 검증 후에만 수리를 승급
4.LongMemEval-S 주요 실패는 검색이 아닌 증거 해석·조합의 오류

💡

왜 중요한가?

자율 개선 루프가 외부 스캐폴딩이라 실패가 기록·재현되지 않아 신뢰하기 어렵던 문제를, 추가 전용 이벤트 로그 기반 런타임으로 모든 승급·폐기를 감사 가능한 이벤트로 만들어 통제된 자기개선을 일급 워크플로로 전환했다.

🏷️ 언급 프로젝트

Regimes ActiveGraph LongMemEval-S

본문 미리보기

arXiv:2606.10241v1 Announce Type: new Abstract: Autonomous improvement loops are hard to trust because the improvement process is usually external scaffolding bolted onto the agent: failures go unlogged, diagnoses cannot be replayed, and promote-or-discard decisions land in a side database rather than the agent's own history. We show that an event-sourced agent runtime removes that friction and turns controlled improvement into a first-class workflow. When the agent's state is a deterministic p

전체 내용이 궁금하다면?

원문을 직접 읽어보세요

원문 보기

#AI 에이전트#자율 개선#메모리#감사 가능성

AI🧑‍💻개발자

4시간 전

When Sample Selection Bias Precipitates Model Collapse

재귀적 합성데이터 학습의 모델 붕괴를 막는 데이터 선택이 저자원 환경선 오히려 붕괴 유발

#모델 붕괴#합성 데이터#데이터 선택

📰미디어arXiv cs.AI

원문

Regimes: An Auditable, Held-Out-Gated Improvement Loop Demonstrated on LongMemEval with ActiveGraph

본문 미리보기

관련 글

When Sample Selection Bias Precipitates Model Collapse

UP-NRPA: User Portrait based Nested Rollout Policy Adaptation for Planning with Large Language Models in Goal-oriented Dialogue Systems

A Deep Reinforcement Learning (DRL)-Based Transformer Method for Solving the Open Shop Scheduling Problem

Formalizing Numerical Analysis: An Agent Pipeline and Quality Audit Beyond Kernel Acceptance