Where Instruction Hierarchy Breaks: Diagnosing and Repairing Failures in Reasoning Language Models | AIChainDay

🇰🇷 한국어 요약by Claude · 2026. 6. 9.

추론 언어모델이 명령 위계(instruction hierarchy)를 어기는 원인을 명령 식별·충돌 해소·응답 실현이라는 세 단계로 분리해 진단하는 화이트박스 프레임워크를 제안한다. Gemma-4-31B-IT, Qwen3.6-35B-A3B, Claude Sonnet 4.6를 장문 맥락의 IHEval·IHChallenge로 평가한 결과, 지배적 실패 유형은 모델·작업·맥락 길이에 따라 달랐다. 저자들은 학습이 필요 없는 두 가지 자기 감시 기법(생성 전 충돌 탐지용 병렬 입력 모니터, 응답 검토·수정용 순차 출력 모니터)을 도입했고, 가장 강력한 모니터는 규칙 위반을 81~99% 줄였다. 에이전트 워크플로의 안전성을 재학습 없이 끌어올릴 실용적 방어책을 보여준다.

•명령 위계 위반을 식별·충돌 해소·응답 실현 3단계로 분해하는 화이트박스 진단 프레임워크 제안
•Gemma-4-31B-IT, Qwen3.6-35B-A3B, Claude Sonnet 4.6 평가에서 지배적 실패 유형이 모델·작업·맥락 길이마다 상이
•학습 불필요한 병렬 입력 모니터(생성 전 충돌 탐지)와 순차 출력 모니터(응답 검토·수정) 두 기법 도입
•최강 모니터가 규칙 위반 비준수를 81~99% 감소, GPT-5.3은 정적 공격 86%·적응형 공격 45% 감소

AI2026년 6월 9일AI 점수: 97%

Where Instruction Hierarchy Breaks: Diagnosing and Repairing Failures in Reasoning Language Models

출처:arXiv cs.AI

✨ AI 인사이트

🧑‍💻 개발자

1.추론 모델의 지시 계층 위반을 지시 식별·충돌 해소·응답 구현 3단계로 분해하는 화이트박스 진단 프레임워크
2.Gemma-4, Qwen3.6, Claude Sonnet 4.6 평가서 지배적 실패 유형이 모델·과제·문맥 길이별로 상이
3.학습 불필요한 자가 모니터링 2종 제안: 생성 전 병렬 입력 감시, 응답 후 순차 검토·복구
4.최강 모니터가 규칙 위반을 81~99% 감소, GPT-5.3은 정적 공격 86%·적응형 45% 감소

💡

왜 중요한가?

지시 계층 위반이 '왜' 일어나는지 단계별로 분해하고, 추가 학습 없이 위반을 81~99% 줄이는 모니터를 제시해 에이전트 워크플로의 안전·규칙 준수에 바로 적용 가능한 방법을 제공한다.

🏷️ 언급 프로젝트

Gemma-4 Qwen3.6 Claude Sonnet 4.6

본문 미리보기

arXiv:2606.07808v1 Announce Type: new Abstract: Reasoning language models deployed in agentic workflows must follow an instruction hierarchy: when instructions from different sources conflict, the model should obey the highest-privilege applicable instruction. Existing benchmarks largely measure this behavior end-to-end, asking whether the final response is compliant. However, a non-compliant response can arise from several distinct failures: the model may fail to identify the relevant instruct

전체 내용이 궁금하다면?

원문을 직접 읽어보세요

원문 보기

#추론 LLM#지시 계층#에이전트 워크플로우#오류 진단#모델 개선

AI🧑‍💻개발자

5시간 전

When Sample Selection Bias Precipitates Model Collapse

재귀적 합성데이터 학습의 모델 붕괴를 막는 데이터 선택이 저자원 환경선 오히려 붕괴 유발

#모델 붕괴#합성 데이터#데이터 선택

📰미디어arXiv cs.AI

원문

Where Instruction Hierarchy Breaks: Diagnosing and Repairing Failures in Reasoning Language Models

본문 미리보기

관련 글

When Sample Selection Bias Precipitates Model Collapse

UP-NRPA: User Portrait based Nested Rollout Policy Adaptation for Planning with Large Language Models in Goal-oriented Dialogue Systems

A Deep Reinforcement Learning (DRL)-Based Transformer Method for Solving the Open Shop Scheduling Problem

Formalizing Numerical Analysis: An Agent Pipeline and Quality Audit Beyond Kernel Acceptance