大数据环境下的电子商务商品实体同一性识别被引量：11

Recognizing the Same Commodity Entities in Big Data

下载PDF

导出

摘要怎样从多源异构的、自治独立的、多样化的、不一致的电子商务数据中找出同一商品实体是当前面临的主要挑战.通过分析不同平台的数据特征,首先建立基于商品属性?值的索引模型,构造商品属性-值的全局模式图并进行模式集成,形成模式统一、质量高效的商品信息数据;而后基于层次概率模型对商品的同一性进行多层相似度量;最终完成商品实体识别,并归一化输出满足同一性的商品集和关联属性并进行排序.基于Hadoop平台对3个B2C电子商务数据源中的商品进行了实验,并与传统方法和产品进行了比较,实验结果证明了本框架的可行性、精确性和高效性. The recent blossom of big data and e-commerce has revolutionized our life by providing everyone with the ease and fun never before. How to identify the same commodity entities from these multi-source heterogeneous, fragmented, various and inconsistent e-commerce data for better business intelligence raises a very valuable and challenging topic. In this light, we analyze the characteristics of Web big data and collect the crawled original commodity information data from the different e- commerce platforms, which are the multi-source heterogeneous and mass scales of data. Then, we build an index model based on commodity＇s attributes and values, and construct a global model map to record the commodity＇s attribute and value, and form the unified model and high efficient commodity information for the next step. And we measure the similarity of the commodity＇s identity on the multilayer hierarchical probabilistic model, including identifying the possible candidate commodity set, similarity filtering the candidate commodity set and similarity filtering based on the special items of candidate commodities set. Finally, we output We also evaluate our method on the datasets collecte platforms with Hadoop framework. Experimental method. the same commodity set in the inverted index list. d from Chinese three main-stream B2C e-commerce results show the accuracy and effectiveness of our

作者胡亚慧李石君余伟杨莎甘琳王凯方其庆

机构地区武汉大学计算机学院空军预警学院汉口学院计算机科学与技术学院

出处《计算机研究与发展》 EI CSCD 北大核心 2015年第8期1794-1805,共12页 Journal of Computer Research and Development

基金国家自然科学基金项目(61272109) 中央高校基本科研业务费专项资金项目(2042014KF0057) 湖北省自然科学基金项目(2014CFB289) 空军预警学院青年创新基金项目(2013ZDJC0101)

关键词 Web大数据电子商务层次概率模型商品 HADOOP Web big data e-commerce hierarchical probabilistic model commodity Hadoop

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1孟小峰,李勇,祝建华.社会计算：大数据时代的机遇与挑战[J].计算机研究与发展,2013,50(12):2483-2491. 被引量：148
2Herndndez M A, Stolfo S J. The merge/purge problem for large databases [C] //Proc of the 1995 ACM SIGMOD Int Conf on Management of Data. New Yorkz ACM, 1995: 127-138.
3Arasu A, Kaushik R. A grammar-based entity representation framework for data cleaning [C] //Proc of the ACM SIGMOD Int Conf on Management of Data (SIGMOD 2009). NewYork: ACM, 2009: 233-244.
4Fan Wenfei, Jia Xibei, Li Jianzhong, et al. Reasoning about record matching rules [C] //Proc of the 35th Int Conf on Very Large Data Bases. Trondheim, Norway: VLDB Endowment, 2009: 407-418.
5Chaudhuri S, Ganti V, Motwani R. Robust identification of fuzzy duplicates [C] //Proc of the 21st Int Conf on Data Engineering. Piscataway, NJ: IEEE, 2005: 865-876.
6Chen Z, Kalashnikov D V, Mehrotra S. Adaptive graphical approach to entity reolution [C] //Proc of the 7th ACM IEEE-CS Joint Conf on Digital Liloraries. New York: ACM, 2007: 204-213.
7Singla P, Domingos P. Entity resolution with Markov logic [C] //Proc of the 6th IEEE Int Conf on Data Mining. Piscataway, NJ: IEEE, 2006:572-582.
8Augsten N, Bohlen M, DyresonC, et al. Approximate joins for data-centric XML [C]//Proc of the 24th Int Conf on Data Engineering. Piseataway, NJ: IEEE, 2008: 814-823.
9王立,张蓉,沙朝锋,王晓玲,周傲英.电子商务商品归一化方法研究[J].计算机学报,2014,37(2):312-325. 被引量：10
10李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162. 被引量：260

二级参考文献223

1张奥千,宋韶旭,王建民.基于数据质量规则的缺失结果解释约减[J].计算机研究与发展,2013,50(S1):221-229. 被引量：2
2金连,王宏志,黄沈滨,高宏.基于Map-Reduce的大数据缺失值填充算法[J].计算机研究与发展,2013,50(S1):312-321. 被引量：18
3李石君,于俊清,欧伟杰.基于HTML模式代数的Web信息提取方法[J].计算机研究与发展,2006,43(9):1644-1650. 被引量：8
4Redman T. The impact of poor data quality on the typical enterprise [J]. Communications of the ACM, 1998, 41(2) : 79-82.
5Miller D W, Yeast J D, Evans R L. Missing prenatal records at a birth center: A communication problem quantified [C] // Proc of AMIA Annual Syrup Proceedings. Maryland: American Medical Informatics Association, 2005 : 535-539.
6Swartz N. Gartner warns firms of 'dirty data' [J]. Information Management Journal, 2007, 41(3): 6.
7Kohn L T, Corrigan J M, Donaldson M S. To Err is Human: Building a Safer Health System [M]. Washington: National Academies Press, 2000.
8Eckerson W. Data Warehousing Special Report Data quality and the bottom line [R]. Applications Development Trends, 2002.
9English L P. Improving Data Warehouse and Business Information Quality: Methods for Reducing Costs and Increasing Profits [M]. New York: Wiley, 1999.
10Woolsey B, Schulz M. Credit card statistics, industry facts, debt statistics [OL]. [2013-04-20 ]. http://www. creditcards, com/credit-card-news/credit-card-indust ry-facts- personal-debt-statistics-1276, php.

共引文献441

1黄雅兰.数字新闻学的方法论探索:新闻生产网络分析[J].中国网络传播研究,2021(3):73-93. 被引量：2
2闫妍.刍议大数据时代背景下全面预算管理对提升项目储备精益化管理水平的价值[J].质量与市场,2020,0(1):19-21. 被引量：6
3张安珍,李建中,高宏.基于符号语义的不完整数据聚集查询处理算法[J].软件学报,2020,31(2):406-420. 被引量：8
4杨超,袁翰青,王彬,苗占群,周兴华,石亚欣.基于三次卷积插值的电网负载热力图分析方法[J].科技通报,2020(2):69-73. 被引量：2
5苟泽鹏,董悦,闫一帆,王成军.数据科学的浪潮:计算社会科学研究综述[J].科学．经济．社会,2021,39(2):16-31. 被引量：5
6曾润喜,潘颖.媒体融合时代的计算新闻成熟度评价研究[J].福建师范大学学报（哲学社会科学版）,2021(4):123-134. 被引量：8
7苏毓淞,刘江锐.计算社会科学与研究范式之争:理论的终结?[J].复旦学报（社会科学版）,2021(2):189-196. 被引量：18
8祝大鹏,漆昌柱.大数据视角下的运动员心理健康教育服务模式构建与定位[J].北京体育大学学报,2023,46(6):113-122. 被引量：2
9李荣.大数据时代电子税务数据分析与应用研究[J].计算机光盘软件与应用,2013,16(19):144-144. 被引量：4
10陈臣.基于大数据的图书馆个性化智慧服务体系构建[J].情报资料工作,2013,34(6):75-79. 被引量：108

同被引文献70

1余伟,李石君,洪辉,田建伟.基于覆盖关系的Deep Web数据源排名[J].计算机研究与发展,2007,44(z3):29-34. 被引量：4
2李明达,王宏志,张佳程,李建中,高宏.PEIF:基于并行机群的大数据实体识别算法[J].计算机研究与发展,2013,50(S1):211-220. 被引量：4
3霍然,王宏志,朱鎔,李建中,高宏.基于Map-Reduce的大数据实体识别算法[J].计算机研究与发展,2013,50(S2):170-179. 被引量：9
42015年中国电子商务市场数据监测报告[R].hap://www.100ec.cn/zt/bd/.
5T. Bernecker, H. P. Kriegel, N. Mamoulis, et al. Scalable Proba- bilistic SimilarityRanking in Uncertain Databases [J].IEEE Trans- actions on Knowledge and DataEngineering, 2010, 22 (9):1234- 1246.
6F. Naumann, M. Herschel. An Introduction to Duplicate Detection [J]. SynthesisLectures on Data Management, 2010, 2(1): 1-87.
7J. Wang, G. Li, J. X. Yu, et al. Entity Matching: How Similar Is Similar [J]. Pro-ceedings of the VLDB Endowment, 2011, 4(10): 622-633.
8S. B. Roy, M. D. Cock, V. Mandava, et al. The Microsoft Academic Search Dataset and Kdd Cup 2013 [C]//Proceedings of the 2013 KDD Cup 2013 Work-shop. 2013:1.
9S. E. Whang, H. Garcia- Molina. Joint Entity Resolution[C]//IEEE 28th Interna-tional Con- ference on Data Engineering. 2012:294-305.
10S. E. Whang, H. Garcia-Molina. Entity Resolution with Evolving Rules [J]. Pro-ceedings of the VLDB Endowment,2010,3 (1-2): 1326-1337.

引证文献11

1毛健民,李俐俐.水稻转基因技术及其抗性改良[J].农业与技术,2000,20(2):27-30.
2于帅.关于大数据环境下的电子商务商品实体同一性识别的研究[J].中国新通信,2016,18(4):56-56.
3程开固,马小雨.基于二元组四维权重约束的个体诚信评估体系数据结构分析[J].科技通报,2016,32(5):152-156. 被引量：3
4全巧梅.大数据时代下电子商务同一性商品的识别[J].农业网络信息,2016(9):15-19. 被引量：1
5胡亚慧,杨莎,刘晶,余伟,李石君,王俊,方其庆.URTP:一种基于用户-区域-时间-商品的因子分解推荐模型[J].计算机科学,2016,43(9):107-110. 被引量：1
6赵星,李石君,余伟,杨莎,丁永刚,胡亚慧.大数据环境下Web数据源质量评估方法研究[J].计算机工程,2017,34(2):48-56. 被引量：18
7陈晓燕,唐年庆.大数据环境下的Web网络风险估计[J].现代电子技术,2017,40(24):56-58. 被引量：4
8胡志刚,刘佳.面向大数据实体识别的超图分割算法[J].小型微型计算机系统,2018,39(7):1542-1547. 被引量：4
9杨永超.电子商务对区域经济发展的作用因素与机理研究[J].技术经济与管理研究,2021(1):124-128. 被引量：8
10姜国义,刘海波,杨倩倩,李文震,康凯,乔卉,梁志远.基于E⁃Learning的移动学习推荐系统研究[J].武汉大学学报（工学版）,2022,55(7):747-754. 被引量：6

二级引证文献45

1白涛,辛锐,孔明,左琦.共享网络不协调目标信息脆弱性风险评估仿真[J].计算机仿真,2018,35(12):208-211. 被引量：1
2付瑞霞.大学生诚信指标评估仿真研究[J].计算机仿真,2017,34(6):197-199.
3郭蒙雨,康宏,袁晓洁.基于流式计算框架的实时数据库分区系统[J].计算机工程,2017,43(11):8-15. 被引量：7
4陈晓燕,唐年庆.大数据环境下的Web网络风险估计[J].现代电子技术,2017,40(24):56-58. 被引量：4
5杨建云,张天栋,唐军,凌军,杨千栩.基于大数据提升的烟叶种植环境优化下云产卷烟内在质量研究[J].环境科学与管理,2017,42(11):10-15. 被引量：3
6陆辉.电子档案大数据的可视化组织和分析[J].科技通报,2017,33(12):175-178.
7宋俊典,刘丰源.一种支持数据质量评价的方法与应用研究[J].计算机应用与软件,2018,35(5):328-333. 被引量：15
8刘计超,徐七龙,范晔.企业对大数据投资的资本决策与协调研究——基于供应链的视角[J].企业科技与发展,2018(6):12-17. 被引量：1
9刘维嘉.基于大型Web网络的环境污染追查系统设计研究[J].环境科学与管理,2018,43(6):82-85.
10赵瑞丹.基于大数据分析的思政教学系统的设计与实现[J].自动化与仪器仪表,2018,0(8):117-119. 被引量：5

1高方君.C^3I多传感器信息融合系统[J].火力与指挥控制,2008,33(4):117-119. 被引量：5
2顾铮.论中医方剂同一性识别[J].中医学报,2009,24(6):21-23.
3么大伟,李景明.电子商务中的安全技术刍议[J].才智,2011,0(7):69-69. 被引量：1
4黄泽豪,张学锋.改进后的k-means算法在电子商务中的应用[J].福建电脑,2013,29(7):112-114.
5许芸.在电子商务数据管理中分布式数据库的安全性策略[J].微电子学与计算机,2002,19(9):12-14. 被引量：5
6王丽娜.电子商务数据加密技术研究[J].光盘技术,2008(3):34-35. 被引量：2
7刘业峰,柴天佑.一种改进的Slope One协同过滤推荐算法[J].控制工程,2017,24(2):257-262. 被引量：4
8陈新来.基于主成分分析和神经网络的目标识别[J].现代防御技术,2012,40(2):132-137. 被引量：1
9夏智权,杨熔,景永奇.基于关联度的多目标同一性识别[J].现代防御技术,2015,43(2):142-146. 被引量：3
10刘胜宗,樊晓平,廖志芳.适用于关联属性的样本自适应参数孤立点检测法[J].计算机应用研究,2012,29(9):3259-3262. 被引量：3

计算机研究与发展

2015年第8期

浏览历史

内容加载中请稍等...

大数据环境下的电子商务商品实体同一性识别被引量：11

参考文献16

二级参考文献223

共引文献441

同被引文献70

引证文献11

二级引证文献45

相关作者

相关机构

相关主题

浏览历史

大数据环境下的电子商务商品实体同一性识别 被引量：11

参考文献16

二级参考文献223

共引文献441

同被引文献70

引证文献11

二级引证文献45

相关作者

相关机构

相关主题

浏览历史

大数据环境下的电子商务商品实体同一性识别被引量：11