海量数据的相似重复记录检测算法被引量：11

Algorithm for detecting approximate duplicate records in massive data

下载PDF

导出

摘要针对海量数据下相似重复记录检测算法的低查准率和低效率问题,采用综合加权法和基于字符串长度过滤法对数据集进行相似重复检测。综合加权法通过结合用户经验和数理统计法计算各属性的权重。基于字符串长度过滤法在相似检测过程中利用字符串间的长度差异提前结束编辑距离算法的计算,减少待匹配的记录数。实验结果表明,通过综合加权法计算的权重向量更加全面、准确反映出各属性的重要性,基于字符串的长度过滤法减少了记录间的比对时间,能够有效地解决海量数据的相似重复记录检测问题。 For the problem of low precision and low time efficiency of approximate duplicate records detection algorithm in massive data,integrated weighted method and filtration method based on the length of strings were adopted to do the approximate duplicate records detection in dataset.Integrated weighted method integrated user experience and mathematical statistics to calculate the weight of each attribute to make weight calculation more scientific.The filtration method based on the length of strings made use of the length difference between strings to terminate the edit distance algorithm earlier which reduced the number of the records to be matched during the detection process.The experimental results show that the weight vector calculated by the integrated weighted method makes the importance of each field more comprehensive and accurate.The filtration method based on the length of strings reduces the comparison time among records and effectively solves the problem of the detection of approximate duplicate records under massive data.

作者周典瑞周莲英

机构地区江苏大学计算机科学与通信工程学院

出处《计算机应用》 CSCD 北大核心 2013年第8期2208-2211,共4页 journal of Computer Applications

基金江苏省科技支撑项目(BE2011156)

关键词海量数据相似重复记录综合加权法编辑距离 massive data approximate duplicate record integrated weighted method edit distance

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1MONGE A E, ELKAN C P. The field matching problem: algorithms and applications [ C]// Proceedings of the 2nd Conference on Knowledge Discovery and Data Mining. Cambridge: AAAI, 1996: 267 - 270.
2MINTON S N, NANJO C, KNOBLOCK C A, et al. A heterogene- ous field matching method for record linkage [ C]// Proceeding of the 5th IEEE International Conference on Data Mining. Piseataway: IEEE, 2005:314-321.
3HERNANDEZ M, STOLFO S. The merge/purge problem for large databases [C]// Proceedings of the 1995 ACM SIGMOD Interna- tional Conference on Management of Data. New York: ACM, 1995: 127 - 138.
4BLENK O M, MOONEY R. Adaptive name matching in information integration [ J]. IEEE Intelligent Systems, 2003, 18 (5) : 16 - 23.
5邱越峰,田增平,季文贇,周傲英.一种高效的检测相似重复记录的方法[J].计算机学报,2001,24(1):69-77. 被引量：72
6鲁均云,李星毅,施化吉,马素琴.基于内码序值聚类的相似重复记录检测方法[J].计算机应用研究,2010,27(3):874-878. 被引量：8
7孟祥逢,鲁汉榕,郭玲.基于遗传神经网络的相似重复记录检测方法[J].计算机工程与设计,2010,31(7):1550-1553. 被引量：13
8李星毅,包从剑,施化吉.数据仓库中的相似重复记录检测方法[J].电子科技大学学报,2007,36(6):1273-1277. 被引量：25
9MONGE A E, ELKAN C. An efficient domain-independent algo- rithm for detecting approximately duplicate database records [ C]// Proceedings of the SIGMOD 1997 Workshop on Research Issues on Data Mining and Knowledge Discovery. Cambridge: AAAI, 1997: 23 - 29.
10张永,迟忠先.位置编码在数据仓库ETL中的应用[J].计算机工程,2007,33(1):50-52. 被引量：12

二级参考文献48

1爨.基于遗传变异与BP混合算法的抽油井流入动态预测[J].计算机应用,2004,24(8):38-40. 被引量：1
2陈细谦,迟忠先,昃宗亮,苏立强.地理编码在空间数据仓库ETL中的应用[J].小型微型计算机系统,2005,26(4):628-630. 被引量：11
3程国达,苏杭丽.一种检测汉语相似重复记录的有效方法[J].计算机应用,2005,25(6):1362-1365. 被引量：8
4葛利.一种基于混合遗传算法学习的过程神经网络[J].哈尔滨工业大学学报,2005,37(7):986-988. 被引量：21
5黄健斌,姬红兵.基于模糊概念格的Web搜索结果聚类算法[J].西安电子科技大学学报,2005,32(6):856-860. 被引量：6
6李先国,梁涌.一种高效的适用于字词检索的数据结构[J].微电子学与计算机,2006,23(12):157-160. 被引量：2
7张永,迟忠先.位置编码在数据仓库ETL中的应用[J].计算机工程,2007,33(1):50-52. 被引量：12
8张冬至,夏伯锴,曾蕾蕾.基于遗传神经网络的多传感器信息融合及应用[J].传感器与微系统,2007,26(4):40-42. 被引量：5
9HANJia-wei,Micheline Kanber著.数据挖掘概念与技术[M].北京:机械工业出版社,2007
10LEE N C. Improving data quality: development and evaluation of error detection methods [ D ]. Taiwan : National Sun Yat-Sen University, 2002.

共引文献108

1缪嘉嘉,吴刚,毛捍东,杨强,邓苏.一种基于条件概率分布的近似重复记录检测方法[J].小型微型计算机系统,2004,25(12):2164-2168. 被引量：3
2孟坚,董逸生,王永利.一种基于规则的交互式数据清洗技术[J].微机发展,2005,15(4):141-144. 被引量：4
3王志军,乐嘉锦.一种中文相似重复记录的检测方法[J].东华大学学报（自然科学版）,2005,31(2):37-40.
4肖国荣.银行零售贷款风险管理系统分析[J].福建电脑,2006,22(7):140-141.
5朱恒民,王宁生.一种改进的相似重复记录检测方法[J].控制与决策,2006,21(7):805-808. 被引量：12
6李星毅,包从剑,施化吉.数据仓库中的相似重复记录检测方法[J].电子科技大学学报,2007,36(6):1273-1277. 被引量：25
7韩京宇,徐立臻,董逸生.数据质量研究综述[J].计算机科学,2008,35(2):1-5. 被引量：102
8刘哲,夏秀峰,宋晓燕,林桐.一种中文地址类相似重复信息的检测方法[J].小型微型计算机系统,2008,29(4):726-729. 被引量：7
9郭小瑛,曾广平.基于Web2．0的数据集成系统的设计与实现[J].微电子学与计算机,2008,25(6):34-37. 被引量：2
10张昌年.一种基于VSM的检测相似重复记录的方法[J].微电子学与计算机,2008,25(8):184-187. 被引量：10

同被引文献68

1韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
2Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[C]//In Proceedings of the 6th Symposium on Operating Systems Design and Implementation.New York:ACM,2004:107-113.
3DEAN J,GHEMAWAT S.MapReduce:simplified data processing on large clusters[C] // In Proceedings of the 6th Symposium on Operating Systems Design and Implementation,New York:NY,2004.
4李星毅,包从剑,施化吉.数据仓库中的相似重复记录检测方法[J].电子科技大学学报,2007,36(6):1273-1277. 被引量：25
5Dey, Debabrata,Sarkar, Sumit,De, Prabuddha.A distance-based approach to entity reconciliation in heterogeneous databases. IEEE Transactions on Knowledge and Data Engineering . 2002
6Deepa Karunakaran,Rangarajan Rangaswamy.A method for duplicate record detection by exploration and exploitation of optimization algorithm. Life Science Journal . 2013
7李坚,郑宁.对基于MPN数据清洗算法的改进[J].计算机应用与软件,2008,25(2):245-247. 被引量：13
8邰林,黄芝平,唐贵林,郭晓俊.并行缓存结构在高速海量数据记录系统中的应用[J].计算机测量与控制,2008,16(4):527-529. 被引量：6
9钟嘉庆,张义芳,卢志刚.数据仓库中重复记录清理算法研究[J].信息化纵横,2009(7):4-6. 被引量：4
10曹小峰.基于相似重复记录检测的特征优选方法研究[J].计算机工程与设计,2009,30(23):5492-5495. 被引量：3

引证文献11

1殷秀叶.大数据环境下的相似重复记录检测方法[J].武汉工程大学学报,2014,36(9):66-69. 被引量：6
2殷秀叶.大数据环境下一种高效的重复记录检测方法[J].洛阳师范学院学报,2014,33(11):52-54. 被引量：2
3郭文龙,董建怀.基于模糊综合评判的相似重复记录清洗方法[J].北京信息科技大学学报（自然科学版）,2017,32(4):59-63. 被引量：3
4刘雅思,程力,李晓.基于长度过滤和动态容错的SNM改进算法[J].计算机应用研究,2017,34(1):147-150. 被引量：9
5马平全,宋凯,纪建伟.基于N-Gram算法的数据清洗技术[J].沈阳工业大学学报,2017,39(1):67-72. 被引量：10
6杨晓东,李军,王继荣,王芳.基于增量自适应的邻近排序算法优化[J].青岛大学学报（自然科学版）,2017,30(2):53-57. 被引量：2
7郭文龙,董建怀.基于模糊综合评判和长度过滤的SNM改进算法[J].武汉工程大学学报,2017,39(4):403-408. 被引量：1
8宋国兴,周喜,马博,赵凡.关键属性组的相似重复记录检测方法研究[J].科学技术与工程,2017,17(19):65-71. 被引量：3
9刘淑磊,高秉强,刘小龙,董扬波.基于边缘计算的电工装备生产制造领域数据处理技术应用研究[J].电子元器件与信息技术,2021,5(1):74-76. 被引量：4
10周世杰,娄渊胜.基于字段过滤和伸缩窗口的SNM算法优化[J].计算机工程与科学,2022,44(4):699-706.

二级引证文献33

1杜立智,陈和平,符海东.NP完全问题研究及前景剖析[J].武汉工程大学学报,2015,37(10):73-78. 被引量：6
2马平全,宋凯,纪建伟.基于N-Gram算法的数据清洗技术[J].沈阳工业大学学报,2017,39(1):67-72. 被引量：10
3郭文龙,董建怀.基于模糊综合评判和长度过滤的SNM改进算法[J].武汉工程大学学报,2017,39(4):403-408. 被引量：1
4何俊,张德海.云南少数民族地区精准扶贫大数据智能分析模型[J].云南民族大学学报（自然科学版）,2018,27(3):249-254. 被引量：7
5马可,郑广海.一种针对关系数据库记录的相似重复记录检测算法[J].电脑知识与技术,2018,14(5):25-28. 被引量：5
6张培根,黄树成.一种用于中文数据清洗的近邻排序算法[J].计算机应用与软件,2018,35(8):286-288. 被引量：8
7王旭东,段敬,温志坚,楼颖稚,陈伟,孔德云,黄豆豆.基于相似重复记录的N-Gram算法的改进与应用[J].现代计算机,2018,24(17):78-82. 被引量：3
8陈文佳.基于B/S架构的电子数据相似检测审计方法研究[J].现代经济信息,2017(2):215-216.
9陈力,费洪晓,丁海伦,成琳,翟纪宇.基于双决策树的数据采样方法[J].计算机工程与科学,2019,41(1):130-135. 被引量：9
10沈思.基于本体构建技术的食品安全事件数据清洗研究[J].电脑与电信,2018(11):26-30.

1薛云.元搜索引擎个性化调度策略的研究与设计[J].煤炭技术,2011,30(4):219-221. 被引量：1
2田路,王辉.模糊评价模型在高校教学中的应用研究[J].合肥师范学院学报,2012,30(6):55-58. 被引量：1
3搭顺风车机器人提前结束旅行[J].世界知识,2015,0(17):78-78.
4龙翀.教与学[J].电脑爱好者,2006,0(21):65-65.
5吉时利(Keithley)发布新半导体测试技术手册[J].电子测量技术,2005,28(4):73-73.
6刘志胜,彭玉华.基于H.264的自适应快速运动估计算法[J].计算机工程与应用,2008,44(5):82-84. 被引量：1
7刘亚杰.用户经验产物:Aisino A6 3.0[J].软件和信息服务,2010(10):71-71.
8李新颖,邓启正,刘靖旭.特种作战力量网络空间防御作战效能评估方法[J].指挥控制与仿真,2016,38(2):52-59. 被引量：1
9许曰滨.用深度优先算法处理并行调度中任务运行提前结束问题[J].小型微型计算机系统,1998,19(8):67-70.
10李世亮.金额转大写经验介绍[J].中国金融电脑,1996(9):50-50.

计算机应用

2013年第8期

浏览历史

内容加载中请稍等...

海量数据的相似重复记录检测算法被引量：11

参考文献10

二级参考文献48

共引文献108

同被引文献68

引证文献11

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

海量数据的相似重复记录检测算法 被引量：11

参考文献10

二级参考文献48

共引文献108

同被引文献68

引证文献11

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

海量数据的相似重复记录检测算法被引量：11