이 연구는 LLM의 추론을 능동적 증거 수집과 신념 갱신으로 재정의하는 멀티턴 인터랙티브 평가 프레임워크를 소개한다. LLM은 태스크 규칙만 받고 숨겨진 환경에 쿼리를 발행해 부분 관찰을 통합한 후 최종 답을 제출하며, 5개 난이도의 474개 실행 가능 게임으로 구성된 벤치마크에서 프론티어 LLM들을 평가했다. 성공률과 상호작용 효율 양면에서 큰 차이가 나타났으며, 반사실적 수정과 필요성 판단이 문맥 교란보다 훨씬 큰 성능 저하를 유발해 현재 LLM의 메타인지 취약성을 드러냈다.
- •추론을 수동 답변 생성이 아닌 '능동적 증거 수집과 신념 갱신'으로 재정의해 단일 턴 벤치마크로는 측정 불가능한 추론 측면을 평가한다.
- •474개 실행 가능 게임, 5개 난이도의 벤치마크에서 표준 성공률 외에 상호작용 효율·문맥 강건성·메타인지 적응을 추가로 평가한다.
- •프론티어 LLM들 간 성공률과 상호작용 효율 양면에서 큰 차이를 노쳐 높은 변별력을 가진 벤치마크임을 입증한다.
- •문맥 교란은 완만한 성능 저하를 유발하지만, 반사실적 수정과 필요성 판단은 훨씬 큰 성능 저하를 일으켜 현재 LLM의 메타인지 취약성을 드러낸다.
Evaluating Interactive Reasoning in Large Language Models: A Hierarchical Benchmark with Executable Games
- 1.LLM 상호작용 추론 평가
- 2.계층적 벤치마크 도입
- 3.실행 가능한 게임 활용
왜 중요한가?
LLM의 상호작용 추론 능력을 평가하기 위한 새로운 계층적 벤치마크는 AI 모델이 복잡한 환경에서 정보를 능동적으로 탐색하고 추론하는 능력을 객관적으로 측정하는 데 중요합니다. 이는 더 지능적인 AI 개발에 필수적인 피드백을 제공합니다.
본문 미리보기
arXiv:2606.00103v1 Announce Type: new Abstract: We introduce a multi-turn interactive framework for reasoning evaluation that treats reasoning as active evidence acquisition and belief updating. Wherein, LLMs receive only the task rules, must issue targeted queries to a hidden environment, integrate partial observations over time, and decide when to submit a final answer. Beyond standard success rate and interaction efficiency, we evaluate contextual robustness under controlled contextual pertu
전체 내용이 궁금하다면?
원문을 직접 읽어보세요