面向相似重复记录检测的特征优选方法被引量：1

An optimal feature selection method for approximately duplicate records detecting

下载PDF

导出

摘要大数据集相似重复记录检测和识别中,数据源组成复杂、表征数据记录的特征属性过多,因而检测精度不高、执行检测的代价过大。针对这些问题,提出了一种分组模糊聚类的特征优选方法。首先进行分组记录的属性处理,以有效降低记录属性的维数,并获得分组中的代表性记录,然后采用一种相似度比较计算方法进行组内相似重复记录的检测。理论分析和实验表明:该方法有较高的识别精度和检测效率,能较好地解决大数据集中相似重复记录的识别问题。 During duplicate records detection and recognition in large number of data sets, detection precision is low and cost of detecting is high because source of data are complicated and there are too many feature attributes. To solve these problems, an optimal feature selection method based on fuzzy clustering in groups is proposed. It deals with attributes of records in groups so as to reduce dimensions of attributes recorded effectively and obtain representative records in groups. It detects approximately duplicate records in groups by a computing method which compares with similarity. By theory analysis and experiments, it shows that identification precision and detection efficiency of this method are higher and it can solve recognition problem of approximately duplicate records in large number of data sets better.

作者李鑫李军丰继林高方平李忠

机构地区防灾科技学院灾害信息工程系

出处《传感器与微系统》 CSCD 北大核心 2011年第2期37-40,共4页 Transducer and Microsystem Technologies

基金国家科技支撑计划资助项目(2008BAC35B05) 中国地震局教师科研基金资助项目(20090105 20090301 20090101) 河北省教育厅自然科学研究计划资助项目(Z2009407)

关键词特征优选相似重复记录模糊聚类相似度 optimal feature selection approximately duplicate records fuzzy clustering similarity

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1Qiu Y F,Tian Z P,Ji W Y ,et al. An cfficicnt approach for detec- ting approximately duplicate database records [ J 1. Chinese J of Computers ,2001,24 ( 1 ) : 69 -77.
2李星毅,包从剑,施化吉.数据仓库中的相似重复记录检测方法[J].电子科技大学学报,2007,36(6):1273-1277. 被引量：25
3Chandhurt S,Ganjam K,Ganti V,et al. Robust and efficient fuzzy match for online data cleaning[ C ]//Proc of 2003 ACM SIGMOD Int'l Conf Management of Data, New York : ACM Press, 2003 : 313 -324.
4洪圆,孙未未,施伯乐.一种使用双阈值的数据仓库环境下重复记录消除算法[J].计算机工程与应用,2005,41(1):168-170. 被引量：9
5Elmagarmid A K, Ipeirotis P G, Verykios V S. Duplicate record detection :A survey [ J ]. IEEE Transactions on Knowledge and Da- ta Engineering,2007,19 ( 1 ) : 1 -16.
6Hemandez M, Stolfo S. The merge/purge problem for large data- base[ M]. ACM Press,1995:127 -138.
7刘伟,曹先彬.对基于MPN的相似重复记录识别算法的改进[J].微计算机信息,2005,21(08X):147-149. 被引量：6
8张永,迟忠先.位置编码在数据仓库ETL中的应用[J].计算机工程,2007,33(1):50-52. 被引量：12

二级参考文献29

1陈细谦,迟忠先,昃宗亮,苏立强.地理编码在空间数据仓库ETL中的应用[J].小型微型计算机系统,2005,26(4):628-630. 被引量：11
2程国达,苏杭丽.一种检测汉语相似重复记录的有效方法[J].计算机应用,2005,25(6):1362-1365. 被引量：8
3李先国,梁涌.一种高效的适用于字词检索的数据结构[J].微电子学与计算机,2006,23(12):157-160. 被引量：2
4张永,迟忠先.位置编码在数据仓库ETL中的应用[J].计算机工程,2007,33(1):50-52. 被引量：12
5Rohit Ananthakrishna,Surajit Chaudhuri,Venkatesh Ganti.Eliminating Fuzzy Duplicates in Data Warehouses.VLDB,2002:586-597.
6Luis Gravano,Panagiotis G Ipeirotis,H V Jagadish et al.Divesh Srivastava:Using q--grams in a DBMS for Approximate String Processing[J]. IEEE Data Eng Bull,2001 ;24(4) :28-34.
7Pdcardo A Baeza-Yates,Berthier A Ribeiro-Neto.Modem Information Retrieval[M].ACM Press/Addison-Wesley, 1999.
8Alvaro E Monge,Charles Elkan.An Efficient Domain-Independent Algorithm for Detecting Approximately Duplicate Database Records. DMKD, 1997.
9M Hemandez,S Stolfo.Real-world data is dirty:Data cleansing and the merge/purge problem[J].Data Mining and Knowledge Discovery, 1997,2(1).
10Erhard Rahm, Hong Hai Do.Data Cleaning :Problems and Current Approaches[J].IEEE Data Eng Bull,2000;23(4):3-13.

共引文献39

1李星毅,包从剑,施化吉.数据仓库中的相似重复记录检测方法[J].电子科技大学学报,2007,36(6):1273-1277. 被引量：25
2李坚,郑宁.对基于MPN数据清洗算法的改进[J].计算机应用与软件,2008,25(2):245-247. 被引量：13
3潘煜,王中生,惠燕.离散数学中R^+算法的研究与实现[J].微计算机信息,2008,24(24):250-251. 被引量：3
4王晓原,吴芳,邢丽.交通流冗余数据识别和约简方法[J].计算机应用,2009,29(4):1110-1113.
5钟嘉庆,张义芳,卢志刚.数据仓库中重复记录清理算法研究[J].信息化纵横,2009(7):4-6. 被引量：4
6吴诗贤.一种时变对象加权概率辨识模型[J].计算机科学,2009,36(9):246-247.
7肖满生,江力,刘有势.一种识别相似重复记录的模糊匹配方法[J].计算机应用与软件,2009,26(11):183-185. 被引量：2
8曹小峰.基于相似重复记录检测的特征优选方法研究[J].计算机工程与设计,2009,30(23):5492-5495. 被引量：3
9鲁均云,李星毅,施化吉,马素琴.基于内码序值聚类的相似重复记录检测方法[J].计算机应用研究,2010,27(3):874-878. 被引量：8
10周丽娟,肖满生.基于数据分组匹配的相似重复记录检测[J].计算机工程,2010,36(12):104-106. 被引量：6

同被引文献11

1周丽娟,肖满生.基于数据分组匹配的相似重复记录检测[J].计算机工程,2010,36(12):104-106. 被引量：6
2肖满生,周浩慧,王宏.基于模糊综合评判的相似重复记录识别方法[J].计算机工程,2010,36(13):51-53. 被引量：14
3叶焕倬,吴迪.相似重复记录清理方法研究综述[J].现代图书情报技术,2010(9):56-66. 被引量：21
4周典瑞,周莲英.海量数据的相似重复记录检测算法[J].计算机应用,2013,33(8):2208-2211. 被引量：11
5陈爽,刁兴春,宋金玉,曹建军,丁晨路.基于伸缩窗口和等级调整的SNM改进方法[J].计算机应用研究,2013,30(9):2736-2739. 被引量：14
6陈芬.改进量子粒子群算法优化神经网络的数据库重复记录检测[J].计算机应用与软件,2014,31(3):20-21. 被引量：10
7殷秀叶.大数据环境下的相似重复记录检测方法[J].武汉工程大学学报,2014,36(9):66-69. 被引量：6
8郭文龙.基于长度过滤和有效权值的SNM改进算法[J].计算机工程与应用,2014,50(19):123-127. 被引量：7
9张胜礼,李永明.广义模糊集GFScom在模糊综合评判中的应用[J].计算机科学,2015,42(7):125-128. 被引量：11
10余肖生,胡孙枝.基于SNM改进算法的相似重复记录消除[J].重庆理工大学学报（自然科学）,2016,30(4):91-96. 被引量：9

引证文献1

1郭文龙,董建怀.基于模糊综合评判和长度过滤的SNM改进算法[J].武汉工程大学学报,2017,39(4):403-408. 被引量：1

二级引证文献1

1沈沛,毛海涛,胡文林,芮波.面向时序的相似重复数据清洗算法优化[J].计算机时代,2022(9):68-72. 被引量：1

1曹小峰.基于相似重复记录检测的特征优选方法研究[J].计算机工程与设计,2009,30(23):5492-5495. 被引量：3
2吴庆辉,蔡海洋,吕精巧.基于改进型遗传神经网络的相似重复记录检测[J].计算机测量与控制,2011,19(5):1021-1023. 被引量：3
3杨家娥.相似重复记录检测的特征优选策略探究[J].无线互联科技,2014,11(5):172-172.
4孟祥逢,鲁汉榕,郭玲.基于遗传神经网络的相似重复记录检测方法[J].计算机工程与设计,2010,31(7):1550-1553. 被引量：13
5殷秀叶.大数据环境下一种高效的重复记录检测方法[J].洛阳师范学院学报,2014,33(11):52-54. 被引量：2
6侯筱婷,鲁萍.SQL存储过程实现相似重复记录检测[J].软件导刊,2011,10(7):28-29. 被引量：3
7胡嘉琪,陈群,刘海龙,杜晶,徐曜,李战怀.基于Web的重复属性自动识别方法[J].计算机工程与应用,2015,51(9):125-128.
8张昌年.一种基于VSM的检测相似重复记录的方法[J].微电子学与计算机,2008,25(8):184-187. 被引量：10
9缪嘉嘉,李爱平,贾焰,吴泉源.信息集成中数据获取关键技术的研究[J].计算机研究与发展,2007,44(z3):452-457.
10戴颖,李兴国,赵启飞.一种相似重复记录检测算法的改进研究[J].计算机技术与发展,2010,20(7):13-16. 被引量：4

传感器与微系统

2011年第2期

浏览历史

内容加载中请稍等...

面向相似重复记录检测的特征优选方法被引量：1

参考文献8

二级参考文献29

共引文献39

同被引文献11

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

面向相似重复记录检测的特征优选方法 被引量：1

参考文献8

二级参考文献29

共引文献39

同被引文献11

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

面向相似重复记录检测的特征优选方法被引量：1