-
题名电子商务商品归一化方法研究
被引量:10
- 1
-
-
作者
王立
张蓉
沙朝锋
王晓玲
周傲英
-
机构
华东师范大学软件学院
复旦大学计算科学技术学院
复旦大学上海市智能信息处理实验室
-
出处
《计算机学报》
EI
CSCD
北大核心
2014年第2期312-325,共14页
-
基金
国家自然基金(61103039
61232002)
+1 种基金
国家"九七三"重点基础研究发展规划项目基金(2012CB316200)
国家"八六三"高技术研究发展计划项目基金(2012AA011003)资助~~
-
文摘
电子商务网站中不断增长的商品数量和商品规模对数据管理提出了新的挑战,其中一项重要基本任务是商品归一化,即识别属于同一个客观实体的所有商品.商品归一化的实现有助于提高商品搜索的准确性、改善用户的体验.但由于在电子商务网站中,特别是在C2C(Customer-to-Customer)模式下,商品信息的数据质量很低且缺乏统一的模式定义规范,导致已有的商品归一化方法难以适用.针对这一问题,文中设计了一种将数据集成、数据清理和商品归一化相结合的混合框架.该框架首先基于图的方法进行模式集成,然后利用商品的描述信息进行数据清理,从而得到数据质量更高且模式统一的商品信息数据;在数据集成和数据清理之后,利用逻辑斯蒂回归(Logistic regression)模型训练分类器,从而得到商品之间的相似度矩阵,最后对相似度矩阵聚类实现商品归一化.通过与已有的方法在真实数据上进行对比实验,验证了文中提出的方法的有效性.
-
关键词
实体识别
模式集成
数据清理
逻辑斯蒂回归
聚类
电子商务中图法
-
Keywords
e-commerce entity resolution
schema integration
data cleaning
logistic regression
clustering
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-