大数据环境下的相似重复记录检测方法被引量：6

Method for detecting approximately duplicate database records in big data environment

下载PDF

导出

摘要大数据环境下的相似重复记录影响数据统计分析结果的准确性,需要过滤相似重复记录.对相似重复记录检测的研究现状做了介绍,在此基础上提出了属性加权的思想,对属性进行加权,并根据属性权值进行排序分组;在对属性加权时,考虑到一些字段的取值是一一对应的关系,权值相同,提出了同义属性的概念,在原数据集的基础上排除部分同义属性来缩减数据集,提高重复数据检测的效率,最后给出了相似重复记录判定的方法.考虑到大数据集给重复记录检测带来的挑战,将大数据集拆分成若干小数据集,充分利用MapReduce机制进行处理,将大数据集按照权重较大的属性取值进行分组,分割成若干个map任务,分别进行处理.实验结果表明,该方法能够有效地提高相似重复记录检测的效率. The accuracy of the data statistical analysis is affected by approximately duplicated records in big data environments, so the approximately duplicated records need to be filtered. We introduced the current research of approximately duplicated records and proposed the weighted attribute idea, weigh- ting the attributes and grouping them according to the weights. Considering that some field＇s relation- ship is one to one, we proposed synonymous property. We excluded some synonymous property on the basis of the original dataset to reduce the dataset and improve the efficiency of detection of approximate- ly duplicated records . Finally synonymous property was proposed. Big datasets were split into a num- ber of small datasets considering the challenge of approximately duplicated records in big dataset. Tak- ing full advantage of MapReduce processing mechanism, big datasets were grouped according to the weight of the larger attribute values, and then divided into a number of map tasks to process. Experi- ment shows that this method can improve detection efficiency of approximately duplicated records effec- tively.

作者殷秀叶

机构地区周口师范学院计算机科学与技术学院

出处《武汉工程大学学报》 CAS 2014年第9期66-69,共4页 Journal of Wuhan Institute of Technology

基金国家自然科学基金青年项目(61103143) 周口师范学院青年科研基金项目(zknuc0215)

关键词相似重复记录大数据同义属性 approximately duplicated records big data MapReduce synonymous property

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162. 被引量：259
2李星毅,包从剑,施化吉.数据仓库中的相似重复记录检测方法[J].电子科技大学学报,2007,36(6):1273-1277. 被引量：25
3庞雄文,姚占林,李拥军.大数据量的高效重复记录检测方法[J].华中科技大学学报（自然科学版）,2010,38(2):8-11. 被引量：15
4周典瑞,周莲英.海量数据的相似重复记录检测算法[J].计算机应用,2013,33(8):2208-2211. 被引量：11
5敖莉,舒继武,李明强.重复数据删除技术[J].软件学报,2010,21(5):916-929. 被引量：119
6韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
7邱越峰,田增平,季文贇,周傲英.一种高效的检测相似重复记录的方法[J].计算机学报,2001,24(1):69-77. 被引量：72
8DEAN J,GHEMAWAT S.MapReduce:simplified data processing on large clusters[C] // In Proceedings of the 6th Symposium on Operating Systems Design and Implementation,New York:NY,2004.

二级参考文献258

1程国达,苏杭丽.一种检测汉语相似重复记录的有效方法[J].计算机应用,2005,25(6):1362-1365. 被引量：8
2韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
3朱恒民,王宁生.一种改进的相似重复记录检测方法[J].控制与决策,2006,21(7):805-808. 被引量：12
4李先国,梁涌.一种高效的适用于字词检索的数据结构[J].微电子学与计算机,2006,23(12):157-160. 被引量：2
5张永,迟忠先.位置编码在数据仓库ETL中的应用[J].计算机工程,2007,33(1):50-52. 被引量：12
6Ahmed K, Panagiotis G, Vassilos, et al. Duplicate record detection: a survey[J]. IEEE Transactions on Knowledge and Data Engineering, 2007, 19 (1) : 1- 16.
7Anestis Sitas, Sarantos Kapidakis. Duplicate detection algorithms of bibliographic descriptions[J]. Library Hi Tech, 2008, 26(2): 287-301.
8McCallum A, Nigam K, Ungar L H. Efficient clustering of high-dimensional data sets with application to reference matching[C]//Sixth ACM SIGKDD Int'l Conf Knowledge Discovery and Data Mining. New York: ACM Press, 2000: 169-178.
9Chaudhuri S, Ganjam, K, Ganti V, et al. Robust and efficient fuzzy match for online data cleaning [C]// ACM SIGMOD International Conference on Management of Data. New York: ACM, 2003: 313- 324.
10Jaewoo Kang. Toward the scalable integration of internet information sources[D]. Madison: Computer Sciences Department, University of Wisconsin-Madison, 2004.

共引文献488

1张安珍,李建中,高宏.基于符号语义的不完整数据聚集查询处理算法[J].软件学报,2020,31(2):406-420. 被引量：7
2杨超,袁翰青,王彬,苗占群,周兴华,石亚欣.基于三次卷积插值的电网负载热力图分析方法[J].科技通报,2020(2):69-73. 被引量：1
3张砚波,刘正伟,文中领,王永海.一种高效存储解决方案的分析与研究[J].计算机研究与发展,2012,49(S1):180-184. 被引量：9
4马井玮,王克宾,赵彬,马良,王刚,刘晓光.基于重复数据删除的连续数据保护系统的快速回滚[J].计算机研究与发展,2012,49(S1):196-200.
5陆游游,敖莉,舒继武.一种基于重复数据删除的备份系统[J].计算机研究与发展,2012,49(S1):206-210. 被引量：5
6彭成,王树鹏,贾志凯.基于纠删码的数据消冗存储系统可靠性增强研究[J].计算机研究与发展,2011,48(S1):1-6. 被引量：3
7刘厚贵,邢晶,霍志刚,安学军.一种支持海量数据备份的可扩展分布式重复数据删除系统[J].计算机研究与发展,2013,50(S2):64-70. 被引量：5
8缪嘉嘉,吴刚,毛捍东,杨强,邓苏.一种基于条件概率分布的近似重复记录检测方法[J].小型微型计算机系统,2004,25(12):2164-2168. 被引量：3
9孟坚,董逸生,王永利.一种基于规则的交互式数据清洗技术[J].微机发展,2005,15(4):141-144. 被引量：4
10王志军,乐嘉锦.一种中文相似重复记录的检测方法[J].东华大学学报（自然科学版）,2005,31(2):37-40.

同被引文献52

1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
2杜丁柱,葛可一,王洁.计算复杂性导引[M].北京:高等教育出版社,2002.
3ARORA S, BARAK B. Complexity Theory: A Mod- em Approach Cambridge University Press [M].Cam- bridge, 2009.
4AARONSON S. Is P versus NP formally independent [J]. Bulletin of the European Association for Theoreti- cal Computer Science, 2003,81 (10) : 109-136.
5SARTAJ Sahni, Data Structures, Algorithms, and Appli- cations in C++[M]. McGraw-Hill, 1998.
6COOK S A. The complexity of theorem proving proce- dures [M]. Proceedings of Third Annual ACM Sympo- sium, New York: on Theory of Computing, Association for Computing Machinery, 1971 : 151-158.
7KARP R M. Reducibility among combinatorial problems [M]. Miller R E, Thatcher J W Plenum Press, Com- plexity of Computer Computations, New York: 1972: 85- 104.
8LANCE Fortnow. The Status of the P Versus NP Prob- lem[J].Communications of the ACM, 2010,52 (9) : 78- 86.
9POSA L. Hamihonian circuits in random graphs [J] .Discrete Math, 1976(14) :359-364.
10邰林,黄芝平,唐贵林,郭晓俊.并行缓存结构在高速海量数据记录系统中的应用[J].计算机测量与控制,2008,16(4):527-529. 被引量：6

引证文献6

1杜立智,陈和平,符海东.NP完全问题研究及前景剖析[J].武汉工程大学学报,2015,37(10):73-78. 被引量：6
2马平全,宋凯,纪建伟.基于N-Gram算法的数据清洗技术[J].沈阳工业大学学报,2017,39(1):67-72. 被引量：10
3郭文龙,董建怀.基于模糊综合评判和长度过滤的SNM改进算法[J].武汉工程大学学报,2017,39(4):403-408. 被引量：1
4王旭东,段敬,温志坚,楼颖稚,陈伟,孔德云,黄豆豆.基于相似重复记录的N-Gram算法的改进与应用[J].现代计算机,2018,24(17):78-82. 被引量：3
5陈文佳.基于B/S架构的电子数据相似检测审计方法研究[J].现代经济信息,2017(2):215-216.
6徐亮.应用量子粒子群算法优化神经网络的数据库重复记录检测[J].微型电脑应用,2022,38(1):142-144. 被引量：1

二级引证文献20

1王卫红,李文琼.基于改进遗传算法的高中走班制排课算法[J].浙江工业大学学报,2016,44(6):601-607. 被引量：9
2林宇生,蒋洪磊,董彦磊,耿纪昭,刘玥霄.基于遗传算法的通信卫星资源动态调度方法研究[J].无线电工程,2017,47(6):20-23. 被引量：20
3何俊,张德海.云南少数民族地区精准扶贫大数据智能分析模型[J].云南民族大学学报（自然科学版）,2018,27(3):249-254. 被引量：7
4杨晨,张少卿,孟光磊.多无人机协同任务规划研究[J].指挥与控制学报,2018,4(3):234-248. 被引量：40
5陈洋卓,李青青,罗天扬,朱林丹,肖奇.基于遗传算法的TSP问题优化方法[J].科技风,2019(1):59-60. 被引量：2
6沈思.基于本体构建技术的食品安全事件数据清洗研究[J].电脑与电信,2018(11):26-30.
7张洪,钟凯迪,柴源,魏济,吴艳,谭锦涛,叶文韬.基于N-Gram和动态滑动窗口的改进余弦相似度算法研究[J].成都大学学报（自然科学版）,2019,38(2):163-166. 被引量：3
8张涛,张颖江,黄学松,张甜甜.扁平化网络多出口流量数据高效清洗方法仿真[J].计算机仿真,2019,36(8):280-283.
9蒋园,韩旭,马丹璇,罗登昌.相似重复数据检测的数据清洗算法优化[J].计算机技术与发展,2019,29(10):79-82. 被引量：7
10吕国俊,曹建军,郑奇斌,常宸,翁年凤,彭琮.基于多目标蚁群优化的单类支持向量机相似重复记录检测[J].兵工学报,2020,41(2):324-331. 被引量：12

1吴庆辉,蔡海洋,吕精巧.基于改进型遗传神经网络的相似重复记录检测[J].计算机测量与控制,2011,19(5):1021-1023. 被引量：3
2杨家娥.相似重复记录检测的特征优选策略探究[J].无线互联科技,2014,11(5):172-172.
3马翔.基于粒子群优化BP神经网络的重复记录检测方法[J].湖南涉外经济学院学报,2010,0(4):68-70. 被引量：1
4马翔.粒子群优化BP神经网络用于重复记录检测[J].辽宁工程技术大学学报（自然科学版）,2010,29(5):959-962. 被引量：4
5刘倩,刘冰洋,贺敏,伍大勇,刘悦,程学旗.基于同义扩展的在线百科中实体属性抽取[J].中文信息学报,2016,30(1):16-23 29. 被引量：1
6龚桂芬,伏玉琛,程远虎.基于布尔矩阵的Deep Web复杂模式匹配[J].计算机工程,2011,37(12):47-49. 被引量：3
7兰洋,尤磊.Deep Web中基于关联规则的整体模式匹配[J].信阳师范学院学报（自然科学版）,2009,22(4):607-610.
8段梦博,蔡兴旺.基于内容的重复数据删除技术的研究[J].电脑知识与技术,2010,6(8):6275-6277. 被引量：3
9王常武,韩菁华,张付志.一种相似重复元数据记录检测方法[J].计算机工程,2009,35(21):85-87. 被引量：3
10卢佳佳,苏一丹,李娜.Deep Web中基于聚类的复杂模式匹配[J].微计算机信息,2009,25(6):220-222. 被引量：1

武汉工程大学学报

2014年第9期

浏览历史

内容加载中请稍等...

大数据环境下的相似重复记录检测方法被引量：6

参考文献8

二级参考文献258

共引文献488

同被引文献52

引证文献6

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

大数据环境下的相似重复记录检测方法 被引量：6

参考文献8

二级参考文献258

共引文献488

同被引文献52

引证文献6

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

大数据环境下的相似重复记录检测方法被引量：6