LLM 에이전트의 외부 하네스(프롬프트·스킬·메모리·도구) 자기 진화에서 '하네스 업데이트 능력'과 '하네스 혜택 능력'을 처음으로 분리 분석했다. 하네스 업데이트 능력은 기반 능력과 무관(flat)해 Qwen3.5-9B의 업데이트도 Claude Opus 4.6 수준의 성과를 냈지만, 하네스 혜택 능력은 비단조적(non-monotonic)으로 중간 계층 모델이 가장 많은 혜택을 받는 반면 약·강 계층 모두 혜택이 작다. 약한 모델의 낮은 혜택은 관련 하네스 아티팩트 활성화 실패 또는 활성화 후 지시 이행 실패 두 가지 모드로 추적된다. 이는 진화자보다 태스크 해결 에이전트에 능력 예산을 투자하고, 하네스 호출과 장기 지시 이행을 에이전트 훈련 목표로 삼아야 함을 시사한다.
- •하네스 업데이트 능력은 기반 능력 수준에 무관(flat)해 Qwen3.5-9B의 업데이트도 Claude Opus 4.6 수준의 성과를 내는 반면, 하네스 혜택 능력은 중간 계층에서 최고조(non-monotonic)임을 처음으로 바혀 증명했다.
- •약한 모델의 낙은 혜택은 '관련 하네스 아티팩트 활성화 실패' 또는 '활성화 후 지시 이행 실패' 두 가지 모드로 구분된다.
- •에이전트 시스템 설계 시 진화자보다 태스크 해결 에이전트에 능력 투자를 집중하고 하네스 호출·장기 지시 이행을 훈련 목표로 삼아야 한다는 실용적 설계 지침을 제공한다.
Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents
- 1.LLM 에이전트 하니스 자기 진화에서 '업데이팅 능력'과 '혜택 수용 능력'이 별개의 독립적 역량임을 실험적으로 규명
- 2.Qwen3.5-9B의 하니스 업데이트도 Claude Opus 4.6과 유사한 이득을 내는 등 업데이팅은 능력 계층에 무관하게 평탄
- 3.하니스 혜택은 중간 계층 모델에서 최대, 약·강 계층에서 이득이 적은 비단조 패턴 관찰
왜 중요한가?
에이전트 시스템 구축 시 진화자(evolver) 능력 향상보다 태스크 해결 에이전트 능력에 예산을 집중해야 한다는 실용적 설계 지침을 제공하며, 하니스 호출과 장기 지시 추종 훈련의 중요성을 강조한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.30621v1 Announce Type: new Abstract: LLM agents are increasingly deployed as systems built around editable external harnesses, including prompts, skills, memories and tools, that shape task execution without changing model parameters. Harness self-evolution adapts such agents by updating these harnesses from execution evidence. Yet it remains unclear whether a model's base capability in task-solving predicts its capabilities in harness self-evolution: which models produce useful harn
전체 내용이 궁금하다면?
원문을 직접 읽어보세요