2025 ACL Rolling Review(ARR) 논문을 대상으로 LLM 리뷰의 인간 정렬도와 조작 가능성을 실험한 결과, LLM-인간 정렬도는 최선의 경우에도 제한적이며 프롬프트·모델에 따라 편차가 크다는 점을 확인했다. 저자가 LLM 리뷰에 맞춰 초안-수정 반복 워크플로를 사용했을 때 특정 시나리오에서 최대 35%의 논문에서 전체 점수가 통계적으로 유의미하게 상승해 게임화가 효과적임을 보였다. AI 리뷰가 학술 심사에 공식 도입되기 전에 인간 정렬도와 조작 취약성을 함께 평가해야 함을 시사하며, 코드는 GitHub(uhh-hcds/reviewarcade)에 공개됐다.
- •LLM 리뷰와 인간 리뷰의 정렬도는 최선의 경우에도 제한적이며, 프롬프트·모델 선택에 따라 정렬도 편차가 크다.
- •저자가 LLM 리뷰 기반 반복 수정 워크플로를 사용하면 특정 시나리오에서 최대 35%의 논문 점수가 통계적으로 유의미하게 상승했다.
- •저자와 리뷰어 모두 LLM을 사용하는 이중 활용 상황에서의 게임화 위험이 실험적으로 확인됐다.
- •코드와 데이터는 GitHub(uhh-hcds/reviewarcade)에 공개됐다.
Review Arcade: On the Human Alignment and Gameability of LLM Reviews
- 1.2025 ACL Rolling Review 대상 실험에서 LLM 리뷰와 인간 리뷰의 일치도는 제한적이며 모델·프롬프트별 편차 큼
- 2.저자가 LLM 리뷰를 기반으로 반복 수정하면 최대 35% 논문에서 LLM 점수가 통계적으로 유의하게 상승
- 3.리뷰어·저자 모두 LLM을 전략적으로 활용 가능한 구조적 취약점 — 학술 심사 신뢰성 위협 확인
왜 중요한가?
학술 심사에 LLM 도입이 빨라지는 상황에서 LLM 리뷰의 조작 가능성이 실증됨으로써, 과학적 동료 심사 신뢰성에 대한 구체적 위협과 보호 장치 마련의 시급성을 제기한다.
본문 미리보기
arXiv:2605.28897v1 Announce Type: new Abstract: LLM-generated reviews for scientific papers are gaining considerable traction and are even being officially piloted by major conferences. We have to assume that not only reviewers are using LLM-assistance, but also that authors use LLMs to revise their papers before submitting. In this work, we perform empirical experiments on papers from the 2025 ACL Rolling Review (ARR) to evaluate LLM reviews from both the author and the reviewer perspective. F
전체 내용이 궁금하다면?
원문을 직접 읽어보세요