LinAlg-Bench는 10개의 최첨단 LLM을 대상으로 3×3, 4×4, 5×5 행렬에 걸친 선형 대수 연산 능력을 평가하는 진단 벤치마크입니다. 660개의 SymPy 검증 문제와 9가지 과제 유형으로 총 6,600개의 모델 출력을 종합 평가하였습니다. 핵심 발견은 4×4 크기에서 급격한 행동 임계점이 나타난다는 것으로, 그 이하에서는 연산 실행 오류가, 그 이상에서는 계산 포기 및 환각 응답이 발생합니다. 이 패턴은 지식의 부재가 아닌 작업 기억의 한계를 시사하며, 모든 모델 아키텍처에 걸쳐 보편적으로 나타납니다.
- •LinAlg-Bench는 10개 LLM을 대상으로 3×3, 4×4, 5×5 행렬 선형 대수 문제 660개(총 6,600 출력)를 평가하는 진단 벤치마크입니다.
- •4×4 행렬에서 행동 임계점이 발생하며, 이하에서는 연산 실행 오류, 이상에서는 환각·계산 포기로 전환됩니다.
- •해결 전략의 경직성이 5×5 행렬식 정확도의 거의 완벽한 예측 인자임을 발견했습니다.
- •이 패턴은 지식 격차가 아닌 작업 기억 한계를 반영하며, 모든 모델 계층과 아키텍처에 걸쳐 보편적으로 나타납니다.
LinAlg-Bench: A Forensic Benchmark Revealing Structural Failure Modes in LLM Mathematical Reasoning
- 1.LinAlg-Bench: 10개 프론티어 LLM의 선형대수 계산 능력을 3x3~5x5 행렬 차원별로 진단하는 벤치마크
- 2.4x4 이상에서 실행 오류가 계산 포기로 전환되는 급격한 행동 임계값 발견
- 3.5x5에서만 나타나는 도구 롤플레이, 제약 일치 환각 등 3가지 창발적 오류 유형 식별
왜 중요한가?
LLM의 수학 실패가 무작위가 아닌 구조적 제약에 의해 결정됨을 실증하며, AI 수리 추론의 한계와 작업 기억 병목을 정확히 파악하는 데 기여한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.16675v1 Announce Type: new Abstract: We introduce LinAlg-Bench, a diagnostic benchmark evaluating 10 frontier large language models on structured linear algebra computation across a strict dimensional gradient of 3x3, 4x4, and 5x5 matrices. Spanning 9 task types and 660 SymPy-certified problems, the benchmark exhaustively evaluates 6,600 model outputs. Beyond binary accuracy, LinAlg-Bench introduces a three-stage automated forensic pipeline classifying 1,156 failures into ten primary
전체 내용이 궁금하다면?
원문을 직접 읽어보세요