ForecastBench-Sim: A Simulated-World Forecasting Benchmark
- 1.ForecastBench-Sim: 턴기반 전략게임 Freeciv 롤아웃으로 구축한 시뮬레이션 세계 예측 벤치마크
- 2.고정 세계 보고서를 받아 숨겨진 미래 상태를 예측하고 시뮬레이션을 이어 채점
- 3.시뮬레이션 기반이라 임의 시간 지평·개입 세계·희귀 사건 예제를 자유롭게 생성
- 4.모델 평가 검증 슬라이스와 익명화된 인간 파일럿 결과를 함께 보고
왜 중요한가?
현실 예측 벤치마크가 느린 결과 확정·희귀 사건·채점 어려운 반사실 질문에 묶이던 제약을, 즉시 해결 가능한 시뮬레이션 세계로 풀어 동적 상태 하 확률 추론을 통제된 환경에서 연구하게 한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2606.18686v1 Announce Type: new Abstract: Forecasting benchmarks for general-purpose AI systems usually inherit the constraints of the real world: outcomes resolve slowly, tail events are rare, and counterfactual questions are difficult to score. We introduce ForecastBench-Sim, a simulated-world forecasting benchmark built on game rollouts from Freeciv, a turn-based strategy game modelled on the Civilization series. Forecasters receive a fixed world report (a structured snapshot of the cu
전체 내용이 궁금하다면?
원문을 직접 읽어보세요