추론 언어모델이 명령 위계(instruction hierarchy)를 어기는 원인을 명령 식별·충돌 해소·응답 실현이라는 세 단계로 분리해 진단하는 화이트박스 프레임워크를 제안한다. Gemma-4-31B-IT, Qwen3.6-35B-A3B, Claude Sonnet 4.6를 장문 맥락의 IHEval·IHChallenge로 평가한 결과, 지배적 실패 유형은 모델·작업·맥락 길이에 따라 달랐다. 저자들은 학습이 필요 없는 두 가지 자기 감시 기법(생성 전 충돌 탐지용 병렬 입력 모니터, 응답 검토·수정용 순차 출력 모니터)을 도입했고, 가장 강력한 모니터는 규칙 위반을 81~99% 줄였다. 에이전트 워크플로의 안전성을 재학습 없이 끌어올릴 실용적 방어책을 보여준다.
- •명령 위계 위반을 식별·충돌 해소·응답 실현 3단계로 분해하는 화이트박스 진단 프레임워크 제안
- •Gemma-4-31B-IT, Qwen3.6-35B-A3B, Claude Sonnet 4.6 평가에서 지배적 실패 유형이 모델·작업·맥락 길이마다 상이
- •학습 불필요한 병렬 입력 모니터(생성 전 충돌 탐지)와 순차 출력 모니터(응답 검토·수정) 두 기법 도입
- •최강 모니터가 규칙 위반 비준수를 81~99% 감소, GPT-5.3은 정적 공격 86%·적응형 공격 45% 감소
Where Instruction Hierarchy Breaks: Diagnosing and Repairing Failures in Reasoning Language Models
- 1.추론 모델의 지시 계층 위반을 지시 식별·충돌 해소·응답 구현 3단계로 분해하는 화이트박스 진단 프레임워크
- 2.Gemma-4, Qwen3.6, Claude Sonnet 4.6 평가서 지배적 실패 유형이 모델·과제·문맥 길이별로 상이
- 3.학습 불필요한 자가 모니터링 2종 제안: 생성 전 병렬 입력 감시, 응답 후 순차 검토·복구
- 4.최강 모니터가 규칙 위반을 81~99% 감소, GPT-5.3은 정적 공격 86%·적응형 45% 감소
왜 중요한가?
지시 계층 위반이 '왜' 일어나는지 단계별로 분해하고, 추가 학습 없이 위반을 81~99% 줄이는 모니터를 제시해 에이전트 워크플로의 안전·규칙 준수에 바로 적용 가능한 방법을 제공한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2606.07808v1 Announce Type: new Abstract: Reasoning language models deployed in agentic workflows must follow an instruction hierarchy: when instructions from different sources conflict, the model should obey the highest-privilege applicable instruction. Existing benchmarks largely measure this behavior end-to-end, asking whether the final response is compliant. However, a non-compliant response can arise from several distinct failures: the model may fail to identify the relevant instruct
전체 내용이 궁금하다면?
원문을 직접 읽어보세요