다회차 대화에서 발생하는 분포 이동 문제를 이론적으로 분석하고 해결책을 제시했다. 정적 오프라인 로그 기반 RL과 프롬프트 기반 시뮬레이터 RL 모두 대화 회차가 늘어날수록 분포 이동이 제곱적으로 누적된다는 근본적 한계를 이론적으로 증명했다. 이를 극복하기 위해 인터랙티브 RL과 시뮬레이터 정렬을 결합한 Calibrated Interactive RL 프레임워크를 제안했다. 다양한 대화 태스크에서 인터랙티브 RL이 정적 기준선을 유의미하게 앞섰고, 시뮬레이터 정렬로 실제 인간과의 격차를 추가로 좁혀 최고 성능을 달성했다.
- •정적 컨텍스트 RL과 프롬프트 기반 시뮬레이터 RL 모두 대화 회차에 따라 분포 이동이 제곱적으로 누적되는 이론적 한계 보유.
- •분포 이동의 두 원인: 정적 이력 학습으로 인한 '정책 유발 이동'과 시뮬레이터-실제 인간 차이로 인한 '시뮬레이터 유발 이동'.
- •Calibrated Interactive RL: 인터랙티브 RL과 시뮬레이터 정렬을 결합해 두 이동 원인을 동시에 해소하는 통합 프레임워크.
- •다양한 대화 태스크에서 State-of-the-art 성능 달성, 이론과 실험 모두에서 정책·시뮬레이터 이동 분리 분석 확인.
From Static Context to Calibrated Interactive RL: Mitigating Distribution Shift in Multi-turn Dialogue with Aligned Simulator
- 1.Static Context RL과 Interactive RL 모두 컨텍스트 분포 이동 문제로 대화 품질을 저하시킴을 이론적으로 규명
- 2.분포 이동이 대화 턴 수에 따라 이차적으로 악화되며, 정책 유도 이동과 시뮬레이터 유도 이동 두 원인으로 구분
- 3.Calibrated Interactive RL: 시뮬레이터를 실제 인간 행동과 정렬해 시뮬-실제 격차를 줄이는 통합 프레임워크 제안
- 4.다중 대화 태스크에서 정적 기준선 대비 최고 성능 달성
왜 중요한가?
RL 기반 대화 에이전트 훈련에서 시뮬레이터와 실제 사용자 행동 불일치가 핵심 병목임을 이론·실험으로 동시에 증명한 연구로, 챗봇·고객 응대 AI 개발에 바로 적용 가능한 프레임워크다.
본문 미리보기
arXiv:2605.26403v1 Announce Type: new Abstract: A long-standing goal of the research community is to develop highly interactive LLM-based dialogue agents. Recent research focuses on optimizing policies based on fixed offline logs (Static Context RL) or using a prompt-based simulator (Interactive RL). In this work, we theoretically show that both paradigms are fundamentally limited by context distribution shift--a mismatch between dialogue histories observed during training and those encountered
전체 내용이 궁금하다면?
원문을 직접 읽어보세요