LLM이 인과 발견(causal discovery)을 신뢰성 있게 수행할 수 없음을 커널 장애 정리(kernel obstruction theorem)로 증명하고, 이 한계를 개입적 에이전트 방식으로 극복하는 Agentic Causal Bayesian Optimization(A-CBO)을 제안한다. A-CBO는 고정된 LLM을 개입 오라클로 활용하고 외부 베이즈 루프가 후보 인과 그래프를 로그 스텝으로 좁혀가며, Extended Corr2Cause(24변수, 18K 샘플)에서 파인튜닝·선호 최적화 기준선을 크게 상회했다. LLM의 인과 발견 한계가 모델이나 데이터셋이 아닌 학습 패러다임 자체에서 기인함을 이론적으로 처음 확립했다.
- •SFT·DPO·in-context learning은 구조적으로 유사 인과 그래프를 구별할 수 없음을 커널 장애 정리로 증명했다.
- •A-CBO는 고정 LLM을 개입 오라클로 쓰고 외부 베이즈 루프로 후보 그래프를 로그 스틱 내에 수렴시킨다.
- •Corr2Cause에서 훈련 없이 파인튜닝 기준선에 필적하고, Extended(24변수·18K)에서 기준선을 크게 상회했다.
- •LLM의 인과 발견 한계는 특정 모델·데이터셋이 아닌 학습 패러다임 자체에서 기인한다.
Why LLMs Fail at Causal Discovery and How Interventional Agents Escape
- 1.LLM의 인과 발견 실패를 커널 장애 정리로 수학적으로 증명 — 학습 패러다임 자체의 구조적 한계
- 2.SFT·DPO·ICL 모두 유사 관측 분포의 인과 그래프를 구분할 수 없음을 형식적으로 증명
- 3.A-CBO: 언어 모델을 개입 오라클로 활용, 외부 베이지안 루프로 로그 횟수 만에 인과 그래프 수렴
- 4.24변수·18K 테스트 Extended Corr2Cause에서 파인튜닝·DPO 대비 유의미한 우위
왜 중요한가?
LLM의 인과 추론 실패가 특정 모델·데이터의 문제가 아닌 학습 패러다임의 구조적 한계임을 이론으로 증명하고, 이를 우회하는 에이전틱 접근 A-CBO를 제시했다. 과학적 추론 에이전트 설계에 근본적 함의를 갖는다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.27567v1 Announce Type: new Abstract: Causal discovery is a cornerstone of scientific reasoning, yet whether large language models can perform it reliably remains an open question. Recent benchmarks show that even fine-tuned models plateau on simple causal graphs and degrade as complexity grows, but why they fail has not been established. We prove the failure is fundamental: supervised fine-tuning, direct preference optimization, and in-context learning all produce predictors that can
전체 내용이 궁금하다면?
원문을 직접 읽어보세요