基于K-modes聚类分组的大数据相似重复记录检测研究被引量：1

About the Detection of Approximately Duplicated Records for Big Data Based on K-modes Clustering Grouping

下载PDF

导出

摘要相似重复记录检测是数据清洗的重要环节,大数据环境下对相似重复记录检测方法的效率和精度提出了更高的要求。文章针对大数据环境下对相似重复记录检测提出了一种聚类分组检测的KCG算法。该方法首先采用改进的K-modes聚类对大数据进行有效的分组,然后在各分组中采用Pair-wise比较算法检测出所有相似重复记录检测。实验分析结果表明,该方法对大数据环境下的相似重复记录检测的效率和精度有明显提高。 Approximately duplicate record detection is one of the most important steps of data cleaning.In the environment of big data,higher requirements are put forward for the efficiency and accuracy of approximately duplicate record detection methods.A algorithm of approximately duplicated records for big data based on K-modes clustering grouping is proposed(KCG)in the paper.Firstly,the improved K-Modes clustering is used to divide the big data,and then the Pair-wise algorithm is used to detect approximately duplicate records in each group.The experimental results show that this method can significantly improve the efficiency and accuracy of approximately duplicate record detection in big data.

作者张平余顺 ZHANG Ping;YU Shun

机构地区安徽职业技术学院信息工程学院

出处《安徽职业技术学院学报》 2022年第1期24-29,共6页 Journal of Anhui Vocational & Technical College

基金 2018年安徽省自然科学研究项目重点项目“Web大数据环境下相似重复数据清洗的研究”(项目编号KJ2018A0710)。

关键词相似重复记录检测网格密度 Pair-wise KCG approximately duplicated record detection grid density Pair-wise KCG

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1袁满,穆永豪,王贵友,于再富.改进的SNM中文语义重复记录检测算法[J].吉林大学学报（信息科学版）,2021,39(3):348-356. 被引量：5
2邱越峰,田增平,季文贇,周傲英.一种高效的检测相似重复记录的方法[J].计算机学报,2001,24(1):69-77. 被引量：72
3韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
4朱蔚恒,印鉴,邓玉辉,龙舜,邱诗定.大数据环境下高维数据的快速重复检测方法[J].计算机研究与发展,2016,53(3):559-570. 被引量：12
5余顺,张平,王曾.基于K-means算法的QRS波群检测研究[J].安徽职业技术学院学报,2021,20(1):25-28. 被引量：1
6贾子琪,宋玲.基于簇内簇间相异度的k-modes算法[J].计算机工程与设计,2021,42(9):2492-2500. 被引量：1
7毛伊敏,陶涛,曹文梁.基于网格密度和局部敏感哈希函数的并行化聚类算法[J].计算机应用研究,2021,38(5):1422-1427. 被引量：6
8张平,党选举,陈皓,杨文雷.基于熵特征优选分组聚类的相似重复记录检测[J].传感器与微系统,2011,30(11):135-137. 被引量：4

二级参考文献69

1余辉,张力新,吕扬生.基于小波变换的QRS波检测[J].生物医学工程与临床,2001,5(2):65-70. 被引量：10
2刘芳,何飞.基于聚类分析技术的数据清洗研究[J].计算机工程与科学,2005,27(6):70-71. 被引量：11
3韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
4余轮,翁友岑,郑慧如.小波变换在心电图R波检测中的应用[J].福州大学学报（自然科学版）,1996,24(5):48-52. 被引量：1
5[1]Bitton D， DeWitt D J. Duplicate record elimination in large data files. ACM Trans Database Systems, 1983, 8(2):255-65
6[2]Hernandez M， Stolfo S. The Merge/Purge problem for large databases. In: Proc ACM SIGMOD International Conference on Management of Data, 1995. 127-138
7[3]Howard B Newcombe, Kennedy J M, Axford S J, James A P. Automatic linkage of vital records. Science, 1959, 130:954-959
8[4]DeWitt D J, Naught J F, Schneider D A. An evaluation of non-equijoin algorithms. In: Proc 17th International Conference on Very Large Databases, Barcelona, Spain, 1991. 443-452
9[5]Hylton J A. Identifying and merging related bibliographic records[MS dissertation]. MIT: MIT Laboratory for Computer Science Technical Report 678， 1996
10[6]Monge A E， Elkan C P. An efficient domain-independent algorithm for detecting approximately duplicate database records. In: Proc DMKD'97, Tucson Arizona, 1997

共引文献110

1缪嘉嘉,吴刚,毛捍东,杨强,邓苏.一种基于条件概率分布的近似重复记录检测方法[J].小型微型计算机系统,2004,25(12):2164-2168. 被引量：3
2孟坚,董逸生,王永利.一种基于规则的交互式数据清洗技术[J].微机发展,2005,15(4):141-144. 被引量：4
3王志军,乐嘉锦.一种中文相似重复记录的检测方法[J].东华大学学报（自然科学版）,2005,31(2):37-40.
4肖国荣.银行零售贷款风险管理系统分析[J].福建电脑,2006,22(7):140-141.
5朱恒民,王宁生.一种改进的相似重复记录检测方法[J].控制与决策,2006,21(7):805-808. 被引量：12
6韩京宇,徐立臻,董逸生.数据质量研究综述[J].计算机科学,2008,35(2):1-5. 被引量：102
7蒋子龙,高曙.基于向量空间模型的Web服务描述相似度计算的研究与实现[J].咸阳师范学院学报,2007,22(6):52-54. 被引量：1
8刘哲,夏秀峰,宋晓燕,林桐.一种中文地址类相似重复信息的检测方法[J].小型微型计算机系统,2008,29(4):726-729. 被引量：7
9郭小瑛,曾广平.基于Web2．0的数据集成系统的设计与实现[J].微电子学与计算机,2008,25(6):34-37. 被引量：2
10张昌年.一种基于VSM的检测相似重复记录的方法[J].微电子学与计算机,2008,25(8):184-187. 被引量：10

同被引文献8

1陈思佳,温蜜,陈珊.基于重复数据删除技术的雾存储数据去冗余方案[J].计算机应用与软件,2020,37(2):18-24. 被引量：4
2范会丽,彭宁,任薇.基于Hadoop平台的数据清洗研究[J].电脑知识与技术,2020,16(5):27-28. 被引量：3
3阮嘉琨,蔡延光,蔡颢,张丽.基于灰狼算法的Simhash冗余数据检测算法[J].东莞理工学院学报,2020,27(5):38-43. 被引量：4
4李碧秋,王佳斌.基于Mahout的相似重复数据清洗策略研究[J].科技与创新,2020(20):15-18. 被引量：2
5王龙翔,董凯,王鹏博,董小社,张兴军,朱正东,张利平.R-dedup:一种重复数据删除指纹计算的优化方法[J].西安交通大学学报,2021,55(1):43-51. 被引量：4
6徐宁,王艳芹,董祯,王勇.基于Apache Spark的配电网大数据预处理技术研究[J].华北电力大学学报（自然科学版）,2021,48(2):40-46. 被引量：12
7钟少恒,曹小冬,邱细虾,刘智聪.基于随机森林算法的通信大数据重复清洗方法[J].信息技术,2022,46(4):159-164. 被引量：4
8侯开茂,韩庆敏,吴云峰,黄兵,张久发,柴处处.一种基于Simhash算法的重复域名数据去重方法[J].信息技术与网络安全,2022,41(4):71-76. 被引量：4

引证文献1

1唐磊,陈璇,王庆宇.基于Hough变换的企业财务重复数据批量剔除方法[J].河北北方学院学报（自然科学版）,2023,39(3):22-26.

1杨胜.干式除尘器在综掘工作面的应用[J].机械管理开发,2021,36(8):207-208. 被引量：1
2王灏佚人营造联合创始人[J].建筑实践,2021,4(4):222-224.
3林雪原,李雪腾,潘新龙,李敏波,陈祥光.一种海上非作战目标实时清洗方法[J].武汉大学学报（信息科学版）,2021,46(9):1378-1385. 被引量：1
4顾晴,董永权,胡杨.相似重复记录检测研究与发展动态的知识图谱分析[J].计算机应用与软件,2022,39(3):1-7. 被引量：1
5薛河,王双,王正,王帅,杨宏亮.基于扩展有限元法的三维裂纹前缘应力强度因子计算方法[J].舰船科学技术,2022,44(3):1-5. 被引量：5
6江婧婷,郑朝晖.面向大规模节点划分的网格密度峰值聚类[J].小型微型计算机系统,2022,43(3):498-505. 被引量：6
7陆增辉,陈艳宁,黄二丹,江蒙喜,农圣.基于聚类分析的全国医共体试点县分类指导方法与实践[J].中国卫生经济,2022,41(2):39-43. 被引量：3
8周世杰,娄渊胜.基于字段过滤和伸缩窗口的SNM算法优化[J].计算机工程与科学,2022,44(4):699-706. 被引量：1
9吴俊杰.月牙肋钢岔管体型优化分析关键技术[J].水利技术监督,2022(4):178-182. 被引量：1
10Yongzhang Huang,Yuxuan Wang,Chenyang Li,Haisen Zhao,Qianyu Wu.Physics Insight of the Inertia of Power Systems and Methods to Provide Inertial Response[J].CSEE Journal of Power and Energy Systems,2022,8(2):559-568. 被引量：1

安徽职业技术学院学报

2022年第1期

浏览历史

内容加载中请稍等...

基于K-modes聚类分组的大数据相似重复记录检测研究被引量：1

参考文献8

二级参考文献69

共引文献110

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于K-modes聚类分组的大数据相似重复记录检测研究 被引量：1

参考文献8

二级参考文献69

共引文献110

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于K-modes聚类分组的大数据相似重复记录检测研究被引量：1