통계 CSV에서 지식 그래프를 구축할 때 직렬화 형식과 스키마 제약이 상호 작용하여 그래프 충실도를 저하시키는 '형식-제약 결합' 현상을 연구했다. 국가-연도 시계열 행렬에서 형식과 스키마의 결합 효과가 각각의 독립적 효과 합보다 최대 +1.180 높게 나타났다. 형식-스키마 불일치 시 개체 팽창이나 추출 거부로 팩트 커버리지가 기준치 이하로 떨어지는 파국적 불일치가 발생할 수 있으며, 이를 평가하기 위한 CSVFidelity-Bench 벤치마크를 공개했다.
- •통계 CSV에서 직렬화 형식과 스키마 제약의 결합 효과가 독립 효과의 합을 최대 2배 초과하는 '형식-제약 결합' 현상 발견
- •형식-스키마 불일치 시 개체 팽창 또는 추출 거부로 팩트 커버리지가 기준치 이하로 급락하는 파국적 불일치 발생 가능
- •표준 검색 모드는 구성 품질 차이를 거의 숨기는 반면(delta ≤ 1pp), 직접 그래프 접근은 최대 +47.6pp 격차를 노출
- •15개 데이터셋과 1,892개 황금 표준 팩트를 포함한 CSVFidelity-Bench 벤치마크 공개로 충실도 평가 지원
Format-Constraint Coupling in Knowledge Graph Construction from Statistical Tables
- 1.CSV 통계 테이블에서 직렬화 형식과 스키마 제약의 상호작용이 지식 그래프 품질을 최대 2배 이상 저하시킬 수 있음
- 2.형식-제약 결합(format-constraint coupling) 현상: 불일치한 형식+스키마 조합 시 사실 커버리지가 기준선 이하로 급락
- 3.표준 검색 방식은 구축 품질 차이를 가리지만, 직접 그래프 접근은 최대 47.6pp 차이를 노출
- 4.CSVFidelity-Bench(15개 데이터셋, 1,892개 골드 팩트) 벤치마크 공개로 평가 표준화 기여
왜 중요한가?
오픈데이터 포털의 통계 CSV를 지식 그래프로 자동 변환하는 파이프라인의 숨겨진 품질 저하 요인을 밝혀냈으며, 스키마 설계 시 직렬화 형식과의 호환성을 반드시 고려해야 함을 실증한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.21974v1 Announce Type: new Abstract: An extraction schema should not reduce knowledge graph fidelity. On statistical CSV, however, it can. We study country-by-year time-series matrices, a common layout on open-data portals. In this setting, serialization format and schema constraints interact super-additively. Their joint effect exceeds the sum of independent effects by up to +1.180 (2x2 factorial, 6 datasets). Bootstrap 95% CIs are strictly positive on 4/6 datasets, with strongest e
전체 내용이 궁금하다면?
원문을 직접 읽어보세요