대형 추론 모델(LRM)의 행동을 설명 대신 예측 가능한 학습 과제로 다루는 접근을 제안한다. 단일 토큰 설명 기법은 긴 추론 궤적으로 일반화되지 않고 궤적 자체도 자연어로 읽으면 충실하지 않기에, 저자들은 설명 단계를 건너뛰고 하나의 추론 궤적으로부터 행동을 예측하는 Behavior Forecaster를 학습시킨다. 학습 데이터는 인간 주석 없이 LRM에 질의해 얻고, 추론은 단일 순전파로 이뤄진다. 모델이 재실행 시 같은 답을 반복할 확률과 입력 일부 제거가 답을 바꾸는 정도라는 두 과제에서, 학습된 예측기는 같은 궤적을 순진하게 읽는 GPT-5.4·Claude Opus-4.6보다 더 정확했고 추론 비용은 일부에 불과했다. 추론 궤적이 단순 읽기를 넘어선 미래 행동 정보를 담고 있음을 보여준다.
- •LRM 행동을 설명 대신 학습 가능한 예측 과제로 전환하는 Behavior Forecaster 제안
- •인간 주석 없이 LRM 질의로 학습 데이터를 얻고 단일 순전파로 추론
- •답 반복 확률·입력 제거 효과 두 과제에서 GPT-5.4·Claude Opus-4.6의 순진한 읽기보다 정확, 비용은 일부
- •백본 종단간 미세조정과 대상 LRM 초기화가 강한 성능에 모두 필요함을 확인
Forecasting Future Behavior as a Learning Task
- 1.설명을 거치지 않고 행동 예측을 학습 과제로 다루는 Behavior Forecaster 제안
- 2.단일 추론 트라젝토리에서 답 반복 가능성·입력 제거 시 답 변화를 단일 순전파로 예측
- 3.학습 데이터는 LRM 질의로 인간 주석 없이 확보, 백본 종단 미세조정·타깃 LRM 초기화가 필수
- 4.3개 데이터셋서 GPT-5.4·Claude Opus-4.6의 나이브 독해보다 정확하고 추론 비용은 일부에 불과
왜 중요한가?
대형 추론모델의 긴 트라젝토리는 자연어로 읽어도 충실하지 않아 기존 설명 기법이 잘 맞지 않는데, 설명 단계를 건너뛰고 행동을 직접 예측하는 우회로를 제시했다. 트라젝토리가 나이브 독해 이상의 미래 행동 정보를 담고 있음을 보여 저비용 AI 신뢰성·해석 도구 설계에 실용적 방향을 준다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2606.11445v1 Announce Type: new Abstract: Trust in an AI system is often anchored by explanations of how it works, which one then uses to forecast its behavior on new inputs. For large reasoning models (LRMs), this conventional route is particularly difficult to follow: explanation methods for single token generations do not naturally generalize to long trajectories, and the trajectories themselves are often not faithful when read as natural language. We propose an alternative that bypass
전체 내용이 궁금하다면?
원문을 직접 읽어보세요