SemHash-LLM: A Multi-Granularity Semantic Hashing Framework for Document Deduplication
- 1.다결입도 의미 해싱 프레임워크 SemHash-LLM으로 대규모 문서 중복 제거
- 2.의미 투영 해싱, 어텐션 가중 MinHash, 대조 경계 학습, 선택적 LLM 판정을 통합
- 3.문자·토큰·문서 수준 신호를 게이트 융합하고 캐스케이드 필터링으로 후보 축소
- 4.신경망 검증 비용 1% 미만으로 강한 중복 탐지 성능 달성
왜 중요한가?
웹 규모 코퍼스에서 의미적 동일성을 유지하며 중복을 걸러내는 일은 LLM 학습 데이터 품질과 직결되는데, SemHash-LLM은 값비싼 신경망 검증을 1% 미만으로 억제해 대규모 전처리에 실용적인 효율을 제시한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2607.01601v1 Announce Type: new Abstract: Large scale document deduplication must preserve semantic equivalence while remaining efficient over massive corpora. We present SemHash LLM, a multi granularity framework that unifies semantic projection hashing, attention weighted MinHash, contrastive boundary learning, and selective LLM based adjudication. The method combines character, token, and document level signals through gated fusion, then applies a cascaded filtering pipeline for effici
전체 내용이 궁금하다면?
원문을 직접 읽어보세요