테이블 데이터 임베딩은 엔티티 해소·스키마 매칭·컬럼 타입 탐지 등에 핵심이지만, 유사도 점수에 본질적 의미가 없어 최근접 이웃이 진짜 일치인지 단지 가장 덜 다른 항목인지 구분할 수 없고 원칙적 임계값을 정하기 어렵다는 한계가 있다. 연구진은 구조화된 select-project 질의를 벡터 공간에서 푸는 과제에 초차원 컴퓨팅(HDC), 특히 홀로그래픽 축약 표현(HRR) 모델을 적용한다. HDC 연산의 대수적 성질을 이용해 등호·비등호 검색 술어에 대한 기대 유사도의 닫힌 형식 값을 유도했고, 이는 차원이 커질수록 해석 가능한 값으로 수렴해 적절한 검색 임계값을 제공한다. 두 실제 데이터셋에서 그래프 기반 EmbDI와 비교한 결과, HDC는 모든 설정에서 행 검색이 동등하거나 우수했고 비등호 술어를 더 견고하게 처리했으며, 충분한 차원에서 완벽한 속성 투영 정확도와 제로 매치 탐지를 달성했다.
- •기존 테이블 임베딩은 유사도 점수에 의미가 없어 제로 매치 탐지와 임계값 설정이 어려움
- •select-project 질의를 벡터 공간에서 풀기 위해 초차원 컴퓨팅(HDC)·HRR 모델 적용
- •등호·비등호 술어의 기대 유사도를 닫힌 형식으로 유도, 차원 증가 시 해석 가능한 값으로 수렴
- •EmbDI 대비 모든 설정에서 행 검색 동등 이상, 비등호 술어 처리가 더 견고
- •충분한 차원에서 완벽한 속성 투영 정확도와 원칙적 임계값 기반 제로 매치 탐지 가능
Hyperdimensional computing for structured querying on tabular data embeddings
본문 미리보기
arXiv:2606.13871v1 Announce Type: new Abstract: Tabular data embeddings have become a cornerstone of data profiling and data integration pipelines, enabling tasks such as entity annotation and resolution; schema matching; column type detection; and table search, among others. Existing approaches embed rows, columns, or entire tables into a vector space and rely on nearest-neighbor search to retrieve candidate matches. A fundamental limitation of current embedding methods is the lack of interpre
전체 내용이 궁금하다면?
원문을 직접 읽어보세요