CEO-Bench: Can Agents Play the Long Game?
- 1.CEO-Bench: 가상 스타트업을 500일간 운영하며 장기 적응 지능을 측정하는 벤치마크
- 2.가격·마케팅·예산 등을 파이썬 인터페이스로 관리하며 장기·불확실·다계층 조율 평가
- 3.우수 에이전트는 고객 코호트를 시뮬레이션해 현금을 예측하고 협상 이력을 채굴
- 4.Claude Opus 4.8과 GPT-5.5만 시작 잔고 100만 달러를 넘겨, 그마저 안정적 흑자는 못 냄
왜 중요한가?
에이전트가 단기·고립 작업엔 능숙하지만 장기 불확실성 항해·잡음 속 정보 획득·변화 적응·다부문 조율은 미검증이던 영역을, 500일 경영 시뮬레이션으로 통합 평가해 현 모델의 한계를 드러낸다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2606.18543v1 Announce Type: new Abstract: Language model agents are becoming proficient executors at isolated, short-horizon tasks such as software engineering and customer service. Yet real-world challenges require a combination of sophisticated skills that remain largely untested in agents: (1) navigating long horizons amid uncertainty; (2) acquiring information in noisy environments; (3) adapting to a changing world; (4) orchestrating multiple moving parts toward a coherent goal. We in
전체 내용이 궁금하다면?
원문을 직접 읽어보세요