계층적 추론에서 에이전트가 정보 부족을 인지하지 못한 채 잘못된 분기에 빠지는 실패를 다룬다. ACTION-RATING은 명확화 질문을 외부 불확실성 트리거가 아니라 에이전트의 행동 공간 안에 두어, 탐색과 동일한 순서 척도에서 '묻기'가 '행동하기'와 직접 경쟁하도록 한다. 이로써 가용 분기가 없는 '필수' 모드와 선두 후보가 있어도 잔여 불확실성이 있는 '기회적' 모드 두 가지가 에이전트 자체 평가에서 떠오른다. 3만 노드 규모 관세율표(HTS) 분류에서 9개 LLM을 평가한 결과, 도움 요청 직후 올바른 다음 탐색으로 이어진 비율(ISE)이 50%에서 74%로 상승했다. 통제된 응답 채널에서는 10자리 분류 정확도가 최대 16.2%p 올라 더 나은 국소화가 풀 수 있는 상한을 시사한다.
- •명확화 질문을 행동 공간에 넣어 탐색과 같은 순서 척도에서 '묻기'와 '행동하기'가 경쟁하게 하는 ACTION-RATING 제안
- •가용 분기 없는 '필수' 모드와 잔여 불확실성의 '기회적' 모드가 에이전트 평가에서 자연 발생
- •3만 노드 HTS 분류·9개 LLM에서 정보요청 효과성(ISE)이 50%→74%로 상승
- •통제된 응답 채널에서 10자리 분류 정확도 최대 16.2%p 향상
Knowing When to Ask: Self-Gated Clarification for Hierarchical Language Agents
- 1.계층적 추론에서 명료화 요청을 에이전트 행동공간 안에 두는 ACTION-RATING 정식화 제안
- 2.물기가 행동과 동일 순서척도에서 경쟁해 필수형·기회형 두 정보탐색 모드가 자체 평점에서 창발
- 3.3만 노드 관세분류(HTS)서 명료화가 필수→기회형 전환, 정보탐색 효과성(ISE) 50%→74% 상승
- 4.답 품질을 18.8% 낮춰도 모드 분리·ISE 순위가 유지돼 도움 탐색 위치와 도움 품질의 분리 입증
왜 중요한가?
계층적 추론 실패가 정보 부족을 모른 채 잘못된 분기에 빠지는 중간 결정점에서 비롯된다는 점에 착안해, 묻는 행위를 관측 가능한 내부 행동으로 만든 점이 새롭다. 어디서 도움을 구하는지와 받은 도움의 질을 분리해 진단하면 에이전트의 명료화 타이밍 설계를 개선할 수 있다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2606.11349v1 Announce Type: new Abstract: In hierarchical reasoning, failures often originate at intermediate decision points where the agent commits to a wrong branch without recognizing that it lacks critical information. Rather than treating clarification as an external uncertainty trigger, we propose ACTION-RATING, a formulation that places it inside the agent's action space on a shared ordinal scale with navigation, so that asking competes directly with acting at every decision point
전체 내용이 궁금하다면?
원문을 직접 읽어보세요