LLM이 모델 가중치 접근 없이 사용자·과제·도메인·모달리티·피드백 체제를 가로질러 적응해야 하는 장기 에이전트로 쓰이지만, 기존 블랙박스 적응은 단일 프롬프트 최적화나 미분화된 메모리, 반복적 롤아웃 탐색에 의존해 비정상 입력·희소 피드백·과제 간 오염에 취약하다. RIZZ는 검증자 게이팅 메모리·라우팅·프롬프트 컴파일만으로 학습하는 지속 적응 프레임워크로, 입력 스트림을 동적으로 생성되는 메모리 분기로 조직한다. 맥락 인식 라우터가 분기를 선택·생성해 분기 지역·전역·그래프·작업 메모리 맥락을 검색하고 과제 증거와 함께 제한된 프롬프트로 컴파일한다. 행동 후 과제 검증자가 점수를 매겨 검증된 상호작용만 메모리를 갱신·규칙 승격·해로운 규칙 강등하며 간섭을 명시적으로 제어한다.
- •검증자 게이팅 메모리·라우팅·프롬프트 컴파일만으로 학습하는 블랙박스 지속 적응 프레임워크 RIZZ를 제안한다.
- •입력 스트림을 동적 생성 메모리 분기로 조직하고 맥락 인식 라우터가 분기를 선택·생성한다.
- •검증된 상호작용만 메모리를 갱신하고 규칙을 승격·강등하거나 안티패턴을 만든다.
- •맥락 예산 아래 온라인 적응에서 과제 간 간섭을 명시적으로 제어한다.
RIZZ: Routing Interactions to Near Zero-Interference Zones for Continual Adaptation of Black-Box Agents
본문 미리보기
arXiv:2606.20638v1 Announce Type: new Abstract: Large language models are increasingly deployed as long-lived agents that must adapt across users, tasks, domains, modalities, and feedback regimes without access to model weights. Existing black-box adaptation methods typically optimize a single prompt, maintain an undifferentiated memory, or rely on repeated rollout-heavy search. However, these designs struggle when streams of input are nonstationary, feedback is sparse, and failures from one ta
전체 내용이 궁금하다면?
원문을 직접 읽어보세요