멀티턴 추론 시스템의 주된 실패 방식이 논리적 모순이 아닌 '충족 가능한 드리프트(satisfiable drift)'임을 규명했다. 이는 내부 상태는 일관성을 유지하지만 반환 답변이 이전 약속을 침묵 속에 위반하는 현상이다. DRIFT-Bench(3개 제약 도메인, 816개 문제)로 8B~120B 파라미터 4개 모델을 평가한 결과, MUS-Repair가 비교 기준선 대비 최대 +15.0%p 우세했다. 구조적 피드백 후에도 잔여 오류의 98~100%는 충족 가능한 드리프트였으며 모순은 거의 0으로 감소해, 답변이 유지 상태를 존중하는지 별도로 검증해야 함을 시사한다.
- •멀티턴 추론 실패의 주된 원인은 논리적 모순이 아닌 '충족 가능한 드리프트'(상태 일관성 유지를 이전 약속 위반)임을 증명.
- •DRIFT-Bench(3개 제약 도메인, 816문제)에서 MUS-Repair가 최선 비교 기준 대비 +1.8~+15.0%p 성능 향상.
- •구조적 피드백 후에도 잔여 오류의 98~100%가 드리프트이며 모순은 거의 새로 말생 → 반환 답변의 별도 상태 정합성 검증 필수.
Residual Drift Dominates Contradiction in Multi-Turn Constraint Reasoning
- 1.멀티턴 추론 시스템의 주 실패 원인이 논리적 모순이 아닌 '만족 가능한 드리프트'(일관성 유지하면서 이전 약속 위반)임을 발견
- 2.DRIFT-Bench: 3개 제약 도메인 816개 테스트, 4개 오픈웨이트 모델(8B~120B) 평가 벤치마크 공개
- 3.MUS-Repair(최소 불만족 서브셋 피드백) 사용 후에도 잔여 오류의 98~100%가 드리프트, 모순은 거의 0으로 감소
왜 중요한가?
멀티턴 에이전트의 신뢰성 문제가 모순 감지가 아닌 드리프트 방지에 있음을 실증했으며, 제약 추론이 필요한 코드 생성·법률·의료 AI 시스템 설계에 직접적인 시사점을 준다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.23940v1 Announce Type: new Abstract: How do multi-turn reasoning systems fail? The expected answer is logical contradiction, in which the system's maintained state becomes unsatisfiable. We show that the dominant mode is instead satisfiable drift, where the internal state stays consistent while the returned answer silently violates prior commitments. We build DRIFT-Bench (Decomposing Reasoning Into Failure Types), a solver-instrumented benchmark of 816 test problems across three cons
전체 내용이 궁금하다면?
원문을 직접 읽어보세요