자기진화 LLM 에이전트의 '에이전트 하니스'(프롬프트·메모리·도구 등 실행 계층) 업데이트를 다각도로 측정하는 평가 환경 SEAGym을 제안했다. 기존 평가가 단일 점수나 순차 곡선으로 환원돼 업데이트가 재사용 가능한 개선인지, 과적합인지, 비용을 늘리는지 가렸던 문제를 겨냥한다. SEAGym은 Harbor 호환 벤치마크를 학습·검증·테스트·재현·비용 기록을 갖춘 동적 자기진화 과제로 변환한다. Terminal-Bench 2.0과 HLE에서 ACE·TF-GRPO·AHE를 비교한 결과, 잦은 업데이트가 보류 성능을 개선하지 못하거나 유용한 중간 스냅샷이 나중에 붕괴할 수 있으며, 소스 다양성과 모델 백엔드가 하니스 신뢰성에 영향을 준다는 점을 확인했다.
- •자기진화 에이전트의 하니스 업데이트를 학습·검증·테스트·재현·비용 기록으로 평가하는 환경 SEAGym 제안
- •Harbor 호환 벤치마크를 동적 자기진화 과제로 변환, ID/OOD 전이·재현 진단 제공
- •Terminal-Bench 2.0·HLE에서 ACE·TF-GRPO·AHE 비교
- •잦은 업데이트가 보류 성능을 못 올리거나 중간 스냅샷이 나중에 붕괴할 수 있음을 발견
SEAGym: An Evaluation Environment for Self-Evolving LLM Agents
- 1.자기진화 LLM 에이전트의 하니스 업데이트를 다면 평가하는 환경 'SEAGym' 공개
- 2.학습·검증·테스트·리플레이·비용 기록으로 재사용 개선/과적합/비용/구버전 손상 구분
- 3.Terminal-Bench 2.0·HLE서 ACE·TF-GRPO·AHE를 동일 프로토콜로 비교
- 4.잦은 업데이트가 홀드아웃 성능 개선에 실패하거나 중간 스냅샷이 후에 붕괴함을 발견
왜 중요한가?
단일 점수나 순차 곡선으로 가려지던 에이전트 자기진화의 실제 효과를 학습·전이·비용 등 다양한 평가 관점으로 드러내, 진화 과정의 신뢰성을 진단할 수 있게 했다.
🏷️ 언급 프로젝트
자체 진화하는 LLM 에이전트의 평가 환경 SEAGym의 등장은 국내 AI 에이전트 개발의 품질과 신뢰도를 높이는 데 결정적인 역할을 할 것입니다. 에이전트의 지속적인 성능 개선을 위한 체계적인 검증 기준을 제공하여, 기업들이 보다 안정적이고 효율적인 AI 서비스를 구축하도록 도울 것입니다.
본문 미리보기
arXiv:2606.17546v1 Announce Type: new Abstract: Self-evolving LLM-based agents improve mainly by changing their agent harness: the structured execution layer around a base model, including prompts, memory, tools, middleware, runtime state, and the model-tool interaction loop. Existing evaluations often reduce this process to isolated task scores or a single sequential curve, obscuring whether an update produces reusable improvement, overfits recent tasks, increases cost, or harms older behavior
전체 내용이 궁금하다면?
원문을 직접 읽어보세요