10년간 tabular 데이터 최강자였던 XGBoost·LightGBM·CatBoost의 '왕국'이 종식되는 이유를 5000억 행 엔터프라이즈 데이터 스케일에서 해설. 핵심 통찰: **알고리즘이 병목이 아니라 피드를 준비하는 엔지니어링 관료제가 병목**. Kaggle 데이터셋은 이미 누군가가 테이블 조인·클리닝·평탄화한 CSV이지만 실제 기업 데이터는 수많은 관계형 테이블로 분산돼 있음. 피처 엔지니어링·조인·평탄화 파이프라인 구축이 ML 프로젝트 시간의 80%를 차지. **Relational Foundation Models**(RFM)가 이 구조를 근본 뒤집음 — 평탄화 없이 관계형 그래프를 직접 학습해 수백 테이블에 걸친 5000억 행 규모도 처리. Kaggle 설정에서는 XGBoost가 여전히 이기지만, 프로덕션 엔터프라이즈에서는 RFM이 pivoting.
- •XGBoost·LightGBM·CatBoost 10년 지배가 Kaggle 환경의 아티팩트 — 프로덕션 아님.
- •실제 기업 데이터는 관계형 테이블 수백 개 분산 — 조인·평탄화 피처 엔지니어링이 실제 병목.
- •Relational Foundation Models(RFM)가 관계 그래프를 직접 학습 — 평탄화 생략.
- •5000억 행 스케일 엔터프라이즈 데이터에서 RFM이 XGBoost를 대체하는 실전 영역 확장.
- •ML 프로젝트 시간 80%가 피처 엔지니어링에 쓰이는 현실의 근본 전환.
Is XGBoost gone: How Relational Foundation Models Conquered 500 Billion Row Enterprise Data

- 1.XGBoost 10년 지배가 Kaggle 아티팩트 — 엔터프라이즈는 다름.
- 2.실제 병목은 알고리즘이 아니라 관계형 데이터 평탄화 엔지니어링.
- 3.Relational Foundation Models가 관계 그래프 직접 학습으로 평탄화 생략.
- 4.5000억 행 규모 엔터프라이즈 tabular 영역에서 RFM 대체 가속.
- 5.ML 시간 80% 피처 엔지니어링 현실이 재편되는 인플렉션 포인트.
왜 중요한가?
한국 대기업·금융권이 수십만~수억 행 관계형 데이터로 XGBoost·LightGBM 기반 모델을 운영하는 현재 구조에 직접 영향. RFM이 피처 엔지니어링 파이프라인을 줄이면 데이터 사이언티스트·ML 엔지니어 조직 구성·투자 우선순위가 바뀔 수 있음. 국내 분석 스타트업·컨설팅 조직에 '다음 세대 tabular AI' 전략 수립의 출발점.
본문 미리보기
For a decade, we worshipped the wrong god. XGBoost and LightGBM dominated leaderboards, won Kaggle competitions, and became the… Continue reading on Towards AI »
전체 내용이 궁금하다면?
원문을 직접 읽어보세요