전자상거래 세션 데이터에서 구조화된 의미 신호를 추출해 구매 의도·고객 세분화·제품 친화도 등 교체 가능한 추론 목표를 구동하는 모듈형 프레임워크 SemantiClean을 제시한다. 정확도만 최적화하는 종단간 예측기와 달리 감사 가능성, 구조적 거버넌스, sigma=0 재현성을 우선해 한계 예측 이득을 요소 수준 투명성과 맞바꾼다. OSPI 데이터셋 기반으로 24개 행동 요소를 기능·상호작용·시스템·맥락 4계층으로 조직하고, 중복 기여 상한·편향 페널티·콜드스타트 보호 등 세 가지 신호 품질 방지 장치를 둔다. 전체 결과를 산출하는 두 단계 LLM 의미 추론 엔진을 구현했으며, 결정론적 출력은 완전 재현 가능하고 성별 추론 목표는 현재 미작동으로 제외했다.
- •전자상거래 세션에서 의미 신호를 추출해 구매 의도·세분화·제품 친화도를 구동하는 모듈형 프레임워크 SemantiClean
- •정확도보다 감사 가능성·구조적 거버넌스·sigma=0 재현성을 우선
- •24개 행동 요소를 4계층으로 조직, 중복 상한·편향 페널티·콜드스타트 보호의 3중 품질 장치 적용
- •두 단계 LLM 의미 추론 엔진 구현, 성별 추론은 미작동으로 제외
From Explicit Elements to Implicit Intent: A Predefined Library for Auditable Behavioral Inference
- 1.이커머스 세션 데이터에서 구조화 의미 신호를 추출하는 모듈형 프레임워크 SemantiClean 제안
- 2.정확도만 최적화하는 종단 예측기와 달리 감사가능성·구조적 거버넌스·sigma=0 재현성을 우선
- 3.OSPI 데이터셋 기반 24개 행동 요소를 4계층 구조로 조직, 3가지 신호 인플레이션 방지 기제 적용
- 4.완전 구현된 2단계 LLM 추론 엔진으로 정량 결과 산출, 결정적 출력은 재현 가능(sigma=0)
왜 중요한가?
구매의도·고객세분화 등 예측에서 정확도만 좇지 않고 요소 단위 투명성과 방어 가능한 의사결정 추적을 우선한 점이 차별적이다. 감사가능성과 재현성을 핵심 가치로 둔 설계는 규제·거버넌스가 중요한 커머스 의사결정 시스템에 실무적 시사점을 준다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2606.11207v1 Announce Type: new Abstract: We present SemantiClean, a modular framework for extracting structured semantic signals from e-commerce session data and driving pluggable inference targets including purchase intent, customer segmentation, and product affinity through a shared element library. Unlike conventional end-to-end predictors that optimise solely for accuracy, SemantiClean prioritises auditability, structural governance, and sigma=0 reproducibility, explicitly trading ma
전체 내용이 궁금하다면?
원문을 직접 읽어보세요