基于网格分组和属性权值的相似重复记录识别算法被引量：1

An Improved Approximately Duplicate Records Detection Algorithm

下载PDF

导出

摘要针对在处理海量数据时,传统的相似重复记录识别方法具有检测效率不高、检测精度较低等缺陷,提出了一种基于网格分组和属性权值的相似重复记录检测算法。该算法采用分而治之的思想,使用网格法将海量数据进行分组,并为各属性设立相应的权值,然后进行相似重复记录的识别。理论分析和实验表明,网格分组有效减少了记录之间的比对次数,基于属性综合权值的方法更加准确反映各属性对记录的贡献度,两者结合能够有效解决大数据的相似重复记录的识别问题。 The traditional detection algorithm has bad efficiency and low detecting precision on approxi-mately duplicate records when it deals with massive data. An improved algorithm based on the grid-based grouping and at tribute weights is proposed. The divide-and-conquer theory is used in this algorithm, and the grid method is used to group the massive data, and it sets up corresponding weights for all the attrib-utes to identify the duplicate records. Both theory and experimental show that the grid group can reduce the comparisons effectively between the records, and the method based on at tribute synthetic weights re-flects the contribution of each at tribute to the record more accurately, and a combination of both can solve the problems of recognizing the big data？s duplicate records effectively.

作者杨巧巧郭振波王开西

机构地区青岛大学数据科学与软件工程学院青岛大学青岛大学计算机科学技术学院

出处《青岛大学学报（自然科学版）》 CAS 2017年第2期69-73,共5页 Journal of Qingdao University(Natural Science Edition)

关键词网格分组属性权值相似记录检测 grid-based grouping attribute weights approximately duplicate records detection

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1鲁均云,李星毅,施化吉,马素琴.基于内码序值聚类的相似重复记录检测方法[J].计算机应用研究,2010,27(3):874-878. 被引量：8
2冯玉才,桂浩,李华,李又奎.数据分析和清理中相关算法研究[J].小型微型计算机系统,2005,26(6):1018-1022. 被引量：6
3李星毅,包从剑,施化吉.数据仓库中的相似重复记录检测方法[J].电子科技大学学报,2007,36(6):1273-1277. 被引量：25
4叶焕倬,吴迪.相似重复记录清理方法研究综述[J].现代图书情报技术,2010(9):56-66. 被引量：21
5邱越峰,田增平,季文贇,周傲英.一种高效的检测相似重复记录的方法[J].计算机学报,2001,24(1):69-77. 被引量：72

二级参考文献124

1车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：63
2陈伟,丁秋林.一种XML相似重复数据的清理方法研究[J].北京航空航天大学学报,2004,30(9):835-838. 被引量：7
3曹忠升,万劲伟.基于语义的数据清理技术[J].华中科技大学学报（自然科学版）,2005,33(2):76-78. 被引量：2
4程国达,苏杭丽.一种检测汉语相似重复记录的有效方法[J].计算机应用,2005,25(6):1362-1365. 被引量：8
5韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
6陈伟,丁秋林.可扩展数据清理软件平台的研究[J].电子科技大学学报,2006,35(1):100-103. 被引量：10
7朱恒民,王宁生.一种改进的相似重复记录检测方法[J].控制与决策,2006,21(7):805-808. 被引量：12
8陆凤霞,王静秋,王宁生.一种开放式数据清理框架[J].南京航空航天大学学报,2006,38(4):459-463. 被引量：3
9陈卓,贺明霞,刘相双.基于扩展凝聚点和网格的增量聚类算法[J].哈尔滨工业大学学报,2006,38(8):1382-1385. 被引量：5
10李先国,梁涌.一种高效的适用于字词检索的数据结构[J].微电子学与计算机,2006,23(12):157-160. 被引量：2

共引文献114

1缪嘉嘉,吴刚,毛捍东,杨强,邓苏.一种基于条件概率分布的近似重复记录检测方法[J].小型微型计算机系统,2004,25(12):2164-2168. 被引量：3
2孟坚,董逸生,王永利.一种基于规则的交互式数据清洗技术[J].微机发展,2005,15(4):141-144. 被引量：4
3王志军,乐嘉锦.一种中文相似重复记录的检测方法[J].东华大学学报（自然科学版）,2005,31(2):37-40.
4贺昱曜,张阳,闫茂德,陈天琴.基于USS协议的电机测控系统设计与实现[J].电力自动化设备,2006,26(4):63-66. 被引量：3
5肖国荣.银行零售贷款风险管理系统分析[J].福建电脑,2006,22(7):140-141.
6朱恒民,王宁生.一种改进的相似重复记录检测方法[J].控制与决策,2006,21(7):805-808. 被引量：12
7韩京宇,徐立臻,董逸生.数据质量研究综述[J].计算机科学,2008,35(2):1-5. 被引量：102
8刘哲,夏秀峰,宋晓燕,林桐.一种中文地址类相似重复信息的检测方法[J].小型微型计算机系统,2008,29(4):726-729. 被引量：7
9郭小瑛,曾广平.基于Web2．0的数据集成系统的设计与实现[J].微电子学与计算机,2008,25(6):34-37. 被引量：2
10张昌年.一种基于VSM的检测相似重复记录的方法[J].微电子学与计算机,2008,25(8):184-187. 被引量：10

同被引文献5

1时念云,张金明,褚希.基于CURE算法的相似重复记录检测[J].计算机工程,2009,35(5):56-58. 被引量：11
2刘许刚,黄海,马宏.一种基于分段匹配的字符串匹配算法[J].计算机应用与软件,2012,29(3):128-131. 被引量：9
3陈爽,刁兴春,宋金玉,曹建军,丁晨路.基于伸缩窗口和等级调整的SNM改进方法[J].计算机应用研究,2013,30(9):2736-2739. 被引量：14
4刘雅思,程力,李晓.基于长度过滤和动态容错的SNM改进算法[J].计算机应用研究,2017,34(1):147-150. 被引量：9
5杨巧巧,郭振波,王开西.基于聚类分组和属性综合权值的SNM改进算法[J].工业控制计算机,2017,30(9):27-28. 被引量：6

引证文献1

1李莉,张晓雯.基于划分的海量数据相似重复记录检测[J].计算机系统应用,2019,28(3):172-178. 被引量：7

二级引证文献7

1王艳喜.试论大数据库的相似记录检测方法[J].中国新通信,2019,21(21):59-60.
2袁满,穆永豪,王贵友,于再富.改进的SNM中文语义重复记录检测算法[J].吉林大学学报（信息科学版）,2021,39(3):348-356. 被引量：5
3赵敏.并行多路径传输过程数据相似性检测仿真[J].计算机仿真,2021,38(9):181-184. 被引量：1
4徐亮.应用量子粒子群算法优化神经网络的数据库重复记录检测[J].微型电脑应用,2022,38(1):142-144. 被引量：1
5周世杰,娄渊胜.基于字段过滤和伸缩窗口的SNM算法优化[J].计算机工程与科学,2022,44(4):699-706.
6胡小琴,潘锦锋.大数据相似重复记录检测算法在试题库中的运用[J].成都工业学院学报,2023,26(1):66-69. 被引量：1
7贺建英.改进的R-树的多维数据重复检测方法[J].电子设计工程,2023,31(3):74-80.

1崔岩,张淑丽.基于有向边和属性的相似度模型设计[J].微处理机,2014,35(5):47-50. 被引量：1
2梁野,龚雪晶,慈林林.基于网格分组移动对象的索引方法[J].北京理工大学学报,2008,28(8):692-696. 被引量：1
3刘华,胡燕,王涛.Web数据清洗研究[J].软件导刊,2007,6(2):75-77. 被引量：1
4张旭.单片机技术在传感器设计中的应用[J].机电信息,2011(36):132-133. 被引量：9
5陈彩红,李军.入侵检测技术和防火墙技术结合的探讨[J].太原科技,2007(5):55-56. 被引量：2
6颜昌沁,李坤,申云成.基于BP神经网络的客户特征属性约简[J].电脑知识与技术（过刊）,2011,17(4X):2640-2641.
7那丽春,陈庆奎,席与亨.基于能力优化机制的网格分组通信模型[J].计算机应用与软件,2006,23(8):17-18.
8马倩,蒲娇,张悦,李金铭,扈瀚丹.基于证据理论的主客观权重融合的决策研究[J].内江科技,2017,38(4):95-97.
9杨晓东,李军,王继荣,王芳.基于增量自适应的邻近排序算法优化[J].青岛大学学报（自然科学版）,2017,30(2):53-57. 被引量：2
10付凯,夏靖波,陈珍.一种改进的多属性系统结构分析模型[J].科学技术与工程,2017,17(4):239-243. 被引量：2

青岛大学学报（自然科学版）

2017年第2期

浏览历史

内容加载中请稍等...

基于网格分组和属性权值的相似重复记录识别算法被引量：1

参考文献5

二级参考文献124

共引文献114

同被引文献5

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于网格分组和属性权值的相似重复记录识别算法 被引量：1

参考文献5

二级参考文献124

共引文献114

同被引文献5

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于网格分组和属性权值的相似重复记录识别算法被引量：1