LLM 에이전트에 절차적 지식을 주입하는 Agent Skills에서 '무엇을 적었는가'와 '어떻게 구성했는가'를 분리해 평가한 연구다. 간결한 루트 파일이 필요에 따라 보조 자원을 가리키는 점진적 공개(Progressive Disclosure) 방식을 평탄화 기준선과 비교했다. 82개 과제 SkillsBench 실험에서 점진적 공개는 궤적당 사용된 Skill 자원 수를 1.18개에서 3.85개로, 유효 활용 횟수를 1.33회에서 3.92회로 늘렸고 410개 매칭 시도 중 17개(+4.1%)를 추가로 통과시켰다. 다만 효과는 과제 의존적이어서 보조 자원이 구현·검증·수정을 돕는 경우엔 유리하지만 정확한 출력 형식이나 수치 임계값이 관건인 과제에선 약했다. Skill의 조직 방식이 단순 표현을 넘어 에이전트의 지식 탐색·적용 행동을 바꾼다는 점을 보여준다.
- •점진적 공개로 궤적당 접근한 Skill 자원이 1.18→3.85개, 유효 활용이 1.33→3.92회로 증가
- •평탄화 기준선 대비 410개 매칭 시도 중 17개(+4.1%)를 추가로 통과
- •효과는 과제 의존적: 자원이 구현·검증·수정을 안내할 때 유리하나 출력 형식·수치 임계값이 관건이면 약함
- •Skill 조직 방식이 단순 표현이 아니라 에이전트의 지식 탐색·적용 행동을 변화시킴을 실증
SkillJuror: Measuring How Agent Skill Organization Changes Runtime Behavior
- 1.에이전트 스킬의 '내용'과 '조직 방식'을 구분해 평가하는 프레임워크 SkillJuror 제안
- 2.점진적 공개(루트 파일이 필요시 보조 자원 안내)를 정규화된 평탄 베이스라인과 비교
- 3.82개 과제 SkillsBench에서 트라젝토리당 접근 자원 1.18→3.85, 효과적 활용 1.33→3.92로 증가
- 4.점진적 공개가 410개 매칭 시도 중 17건(+4.1%) 추가 통과, 다만 효과는 과제 의존적
왜 중요한가?
스킬의 조직 방식이 단순 표현이 아니라 에이전트가 절차 지식을 탐색·적용하는 방식 자체를 바꾼다는 점을 실증했다. 구현·점검·복구를 안내하는 자원엔 도움되지만 정확한 출력 규약·수치 임계엔 약하다는 조건부 결과는 에이전트 스킬 설계의 실무 지침이 된다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2606.11543v1 Announce Type: new Abstract: Agent Skills augment large language model (LLM) agents with procedural knowledge at inference time, but current benchmarks rarely distinguish what a Skill says from how it is organized. We study this distinction through Progressive Disclosure, where a concise root file points agents to supporting resources on demand, and compare it with a normalized flat baseline. We present SkillJuror, a framework for evaluating Skill writing paradigms through se
전체 내용이 궁금하다면?
원문을 직접 읽어보세요