Tree of Thought(ToT) 탐색이 컴퓨팅 예산·모델 크기·문제 난도에 따라 어떻게 작동하는지 체계적으로 분석했다. MCTS 기반 DPTS와 의미 중복 제거 기반 SSDP를 Math500·GSM8K, Llama-3B·8B, 3k~10k 토큰 예산에서 평가한 결과 두 방법의 한계가 정반대로 나타났다. DPTS는 낮은 예산에서 가치 추정이 안정화되기 전까지 탐색이 필요한 콜드스타트 병목을 겪고, SSDP는 공격적 노드 병합으로 미탐색 경로를 영구 폐기해 프론티어 고갈에 빠진다. 고정된 탐색·가지치기 전략 대신 탐색 진행도와 가용 자원에 따라 적응하는 전략이 필요하다고 주장한다.
- •DPTS(MCTS 기반)와 SSDP(의미 중복 제거 기반)를 두 벤치마크·두 모델 규모·네 토큰 예산에서 비교 평가했다.
- •DPTS는 저예산에서 콜드스타트 병목을 겪어 탐색이 충분해야 가치 추정이 신뢰할 만해진다.
- •SSDP는 노드 병합이 미탐색 경로를 영구 폐기해 예산이 남아도 개선되지 않는 프론티어 고갈에 빠진다.
- •고정 전략으로는 컴퓨팅 연속체 전반을 감당할 수 없어 진행도·자원 적응형 탐색이 필요하다.
Beyond Fixed Budgets: Characterizing the Inelasticity and Limitations of Tree-of-Thought Reasoning Strategies
본문 미리보기
arXiv:2606.20599v1 Announce Type: new Abstract: Tree of Thought (ToT) search has become a promising direction for improving the reasoning capabilities of large language models, but deploying these methods in practice raises a question that has received little systematic attention: how do different search strategies behave under varying compute budgets, model sizes, and problem difficulties? In this work, we evaluate two representative ToT methods; DPTS, a Monte Carlo tree search based approach,
전체 내용이 궁금하다면?
원문을 직접 읽어보세요