비정상(non-stationary) 환경에서 학습이 불필요한 언어 강화학습 에이전트가 겪는 '보존-망각 딜레마'를 다뤘다. 낡은 통찰을 유지하면 부정적 전이가, 버리면 조건 재현 시 파국적 망각이 생긴다. 연구진은 결과 기반 평가, 지속적 구조화 증거, 비단조 지식 수명주기, 조합적 거버넌스라는 네 요건을 제시하고, 기존 방법이 경험 추출에만 치중하고 통찰 거버넌스에 소홀했음을 보인다. 이에 규칙·증거·스킬 3계층 아키텍처를 피드백 기반 큐레이션 루프로 연결해 거버넌스 공백을 메운다. 금융 예측 사례에서 동일한 누적 경험이 큐레이션 루프 유무에 따라 제로샷 기준 이하로 악화되거나 정확도·위험조정 수익을 크게 개선함을 보였다.
- •비정상 환경에서 언어 강화학습 에이전트의 보존-망각 딜레마(부정적 전이 vs 파국적 망각) 규명
- •결과 기반 평가·지속적 구조화 증거·비단조 지식 수명주기·조합적 거버넌스 네 요건 제시
- •규칙·증거·스킬 3계층 아키텍처를 피드백 기반 큐레이션 루프로 연결
- •금융 예측에서 동일 경험이 큐레이션 루프 유무에 따라 성능 악화 또는 정확도·위험조정 수익 크게 개선
Closing the Feedback Loop: From Experience Extraction to Insight Governance in Verbal Reinforcement Learning
- 1.훈련 없는 언어형 강화학습 에이전트의 '보존-망각 딜레마'를 푸는 인사이트 거버넌스 구조 제안
- 2.규칙·증거·스킬 3계층과 피드백 큐레이션 루프로 낡은 규칙의 부정적 전이를 차단
- 3.금융 예측 실험서 큐레이션 루프 유무에 따라 동일 경험이 성능 악화 또는 대폭 개선으로 갈림
왜 중요한가?
기존 방법이 경험 추출에 치중하고 거버넌스에 투자하지 않던 공백을 지적하며, 비정상 환경에서 누적 경험을 언제 적용·폐기할지 관리하는 것이 정확도와 위험조정 수익을 좌우함을 보였다.
LLM 에이전트가 실시간 피드백을 통해 학습하고 경험에서 규칙을 추출하는 기술은 국내 기업의 AI 기반 의사결정 시스템을 고도화할 핵심 요소입니다. 특히 시장 변화에 민감한 금융, 유통 분야에서 AI가 더욱 전략적인 통찰력을 제공하고 적응력을 높이는 데 기여할 것입니다.
본문 미리보기
arXiv:2606.17591v1 Announce Type: new Abstract: Training-free verbal reinforcement learning enables LLM agents to learn from world feedback -- objective signals such as dynamic task outcomes, market returns, or demand forecasts -- by extracting verbal rules from experience and injecting them as context, updating the agent's behavior without parameter changes. However, in non-stationary environments these agents face a retention-forgetting dilemma: retaining stale insights causes negative transf
전체 내용이 궁금하다면?
원문을 직접 읽어보세요
