자동 연구(autoresearch) 에이전트가 이질적 지역·코호트에 걸쳐 집계된 단일 지표로 후보를 선택할 때, 집계값이 잘못된 후보를 1위로 뽑을 수 있음을 보인다. 생태계 동역학 모델의 화재 모델 과제에서, 전역 점수상 노이즈 범위 내로 비슷한 두 후보 중 최고 점수 후보는 보호 대상인 한대(boreal) 지역을 붕괴시키는 반면 약간 낮은 후보는 이를 보존했다. 차이는 지역별 거동에 있지 헤드라인 숫자에 있지 않다. 저자들은 점수를 최적화한 에이전트가 그 점수의 오류를 잡을 가능성이 가장 낮다고 보고, 후보의 분해된(disaggregated) 거동을 감사해 에이전트 결정 이후 개입하는 외부 통제 루프를 제안한다. 핵심 기여는 이 역전 현상의 발견과, 점수 대신 검토 가능한 후보 효과 증거로 결정하는 탐색 규율 프로토콜이다.
- •집계 지표가 분해된 구조의 검증을 가리며 잘못된 후보를 1위로 뽑는 '역전' 현상 발견
- •생태계 동역학 화재 모델에서 최고 점수 후보가 한대 지역을 붕괴, 낮은 점수 후보는 보존
- •점수를 최적화한 에이전트는 점수 오류를 잡기 어려움을 지적
- •분해된 거동을 감사해 에이전트 결정 이후 개입하는 외부 통제 루프·탐색 규율 프로토콜 제안
Search Discipline for Long-Horizon Research Agents
- 1.오토리서치 에이전트가 집계 지표로 후보를 고를 때 잘못된 후보를 1위로 뽑는 '역전' 현상을 규명
- 2.검증이 다차원 타당성을 단일 수치로 환원하는 곳이면 어디서든 발생하며 도메인 비특이적임을 지적
- 3.생태계 모델 화재 과제에서 최고점 후보가 보호 북방림을 붕괴시키는 반면 차점 후보는 보존함을 제시
- 4.점수 대신 분해된 후보 효과 증거로 판단하는 외부 제어 루프·탐색 규율 프로토콜 제안
왜 중요한가?
점수를 최적화하는 에이전트 자신은 그 점수가 틀렸음을 가장 늦게 알아채므로, 의사결정을 분해된 행동을 감사하는 외부 루프로 옮겨야 한다는 통찰을 준다. 집계 지표만 믿는 자동 과학 발견 파이프라인이 조용히 모델을 망가뜨릴 위험을 드러내 검증 설계의 전환을 촉구한다.
본문 미리보기
arXiv:2606.11522v1 Announce Type: new Abstract: Autoresearch agents now propose, evaluate, and select scientific candidates against a metric, and that metric is usually an aggregate reduced over a heterogeneous space of regions, slices, or cohorts. We show that when scientific validity lives in that disaggregated structure, the aggregate can rank the wrong candidate first. The headline number improves while the structure underneath inverts, so a decision made on the number accepts a candidate t
전체 내용이 궁금하다면?
원문을 직접 읽어보세요