基于聚类汇总的记录匹配算法被引量：2

A Record Matching Algorithm Based on Clustering Collection

下载PDF

导出

摘要记录匹配算法在异构数据的集成和数据开采等领域应用广泛 ,其主要任务是找出来自不同数据源中代表同一对象实体的记录 ,这些记录具备相似的属性和属性值。为避免组合爆炸问题 ,现有的记录匹配算法不再对数据库中的记录数两两匹配 ,而是结合排序策略和静态聚类匹配方法实现 ,但这种静态方法不适应数据的动态变化。因此 ,本文提出基于聚类汇总的记录匹配算法 ,该算法可以解决静态方法导致的匹配记录丢失问题 ,同时能够减少计算量 ,提高匹配记录搜索效率。 The record matching algorithm is widely used in the fields of heterogeneous data integration and data mining,etc. The task of the algorithm is to discover the records which represent the same entity from different sources. The records have the approximate attributes and attribute values. To avoid the problem of combination explosion,the existing record matching algorithms will no longer be used to perform pair-wise record matching. They integrate the data sorting policy with the static clustering matching method. But the static method is unsuitable for dynamic data changing. Therefore, a record matching algorithm based on clustering collection is proposed. The algorithm can solve the problem of matched record loss caused by the static method. It can also improve the efficiency of matched record searching.

作者王天江刘芳卢正鼎

机构地区华中科技大学计算机学院

出处《计算机工程与科学》 CSCD 2004年第9期62-63,101,共3页 Computer Engineering & Science

基金国家高性能计算基金资助项目 ( 0 0 3 0 3 ) 华中科技大学科学研究基金资助项目 (M990 15 )

关键词聚类汇总记录匹配模式匹配重复记录发现聚类分析 record matching clustering collection clustering analysis

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1JiaweiHan MiehelineKamber.数据挖掘:概念与技术[M].机械工业出版社,2001.237-251.
2U S Congress, Office of Technology Assessment. Information Technologies for Control of Money Laundering, OTA-ITC-630 [ Z ].Washington, DC: U. S. Government Printing Office, 1995.
3M Hernandez, S Stolfo. The Merge/Purge Problem for Large Databases[A].Proc of the ACM SIGMOD Int'l Conf on Management of Data[C]. 1995. 127-138.
4Fang Liu, Zhengding Lu, Songfeng Lu. Mining Association Rules Using Clustering[J]. Intelligent Data Analysis, 2001, 5(4): 309- 326.

共引文献50

1毛军军,张铃,许义生.基于商空间和信息粒度的Fuzzy聚类分析[J].运筹与管理,2004,13(4):25-29. 被引量：3
2赵妍,逄玉俊,文东丽.从样本数据中提取模糊规则的算法研究[J].石油化工高等学校学报,2004,17(3):83-88. 被引量：4
3闫伟,张浩,路剑峰.时间序列分析在流程企业中的应用研究[J].计算机工程与应用,2005,41(7):27-29. 被引量：1
4马光志,陈凤华.基于关联规则的ABN分类器构造[J].计算机工程与科学,2005,27(5):84-87.
5郭涛,张浩,陆剑峰.数据挖掘系统开发及Oracle Data Mining应用[J].机械工程与自动化,2005(2):49-51. 被引量：2
6杜培军,高松洁.高光谱遥感数据挖掘若干基本问题的研究[J].遥感信息,2005,27(3):53-57. 被引量：5
7何生志,郭涛,张浩.基于Oracle DataMining的数据挖掘在石化企业的应用[J].自动化博览,2005,22(2):34-36.
8叶菲,罗景青.一种基于BFSN聚类的多参数综合分选算法[J].雷达与对抗,2005,25(2):43-45. 被引量：7
9罗媛,周少华.多因子评价模型在客户分类中的应用[J].科技管理研究,2005,25(7):146-148. 被引量：1
10张玉芳,王秀琼,孙思,熊忠阳.一种异常挖掘技术在入侵检测中的应用[J].计算机工程与应用,2005,41(22):157-159.

同被引文献9

1张永,迟忠先.位置编码在数据仓库ETL中的应用[J].计算机工程,2007,33(1):50-52. 被引量：12
2Bilenko M, Mooney R. Adaptive name matching in information integration [ J ]. IEEE Intelligent System,2003,18 (5) : 16 - 23.
3Monge A. An adaptive and efficient algorithm for detecting approximately duplicate database records [EB/OL ]. 2007 - 09 - 02. http :// citeseer, ist. psu. edu/mongeov adaptive, html.
4Monge A.An Adaptive and Efficient Algorithm for Detecting Approximately Duplicate Database Records[EB/OL].(2007-09-02).http://citeseer.ist.psu.edu/mongeovadaptive.html.
5Khan H M,Maly K,Zubair M.Similarity and Duplicate Detection System for an OAI Compliant Federated Digital Library[C] //Proc.of ECDL'05.Vienna,Austria:[s.n.] ,2005.
6Foulonneau M.Information Redundancy Across Metadata Collections[J].Information Processing and Management,2007,43(3):740-751.
7李星毅,包从剑,施化吉.数据仓库中的相似重复记录检测方法[J].电子科技大学学报,2007,36(6):1273-1277. 被引量：25
8时念云,张金明,褚希.基于CURE算法的相似重复记录检测[J].计算机工程,2009,35(5):56-58. 被引量：11
9邱越峰,田增平,季文贇,周傲英.一种高效的检测相似重复记录的方法[J].计算机学报,2001,24(1):69-77. 被引量：72

引证文献2

1肖满生,江力,刘有势.一种识别相似重复记录的模糊匹配方法[J].计算机应用与软件,2009,26(11):183-185. 被引量：2
2周丽娟,肖满生.基于数据分组匹配的相似重复记录检测[J].计算机工程,2010,36(12):104-106. 被引量：6

二级引证文献8

1雷孝平,张旭,赵蕴华,郑佳.基于IRPU算法的专利数据相似重复属性及记录检测方法[J].现代图书情报技术,2010(12):46-51. 被引量：2
2邹亚会.一种有效检测汉语相似重复记录的方法[J].科技情报开发与经济,2011,21(21):133-135.
3蒋勇青,杨奕虹,杨贺.论数据清洗对信息检索质量的影响及清洗方法[J].中国索引,2012,10(1):16-20. 被引量：3
4郭文龙,董建怀.基于模糊综合评判的相似重复记录清洗方法[J].北京信息科技大学学报（自然科学版）,2017,32(4):59-63. 被引量：3
5郭文龙,董建怀.基于模糊综合评判和长度过滤的SNM改进算法[J].武汉工程大学学报,2017,39(4):403-408. 被引量：1
6马云辉,周文云.“互联网+查收查引服务”自动化平台的构建与优化策略研究[J].图书馆研究与工作,2019(12):42-47. 被引量：3
7周文云,马云辉,李菲菲,张薇.基于片词模糊匹配的智能化查收查引系统研究[J].情报探索,2020(10):36-41. 被引量：3
8殷秀叶.一种基于同级字段的相似重复记录检测方法[J].软件,2014,35(6):12-14.

1李邮,闫宏秀.数据挖掘技术在财会领域的应用[J].科技与创新,2017(4):139-139.
2谢坤武,陈世强,毕晓玲.关联规则发现中的聚类方法[J].计算机科学,2007,34(8):180-183. 被引量：2
3马如霞,孟小峰,王璐,史英杰.MTruths:Web信息多真值发现方法[J].计算机研究与发展,2016,53(12):2858-2866. 被引量：9
4李娇,刘全,傅启明,王庭钢.分布式数据库中基于局部CON模型的记录匹配方法[J].通信学报,2011,32(7):196-202. 被引量：4
5刘波,刘伟平,翟浩田,谢玮欣.基于PCA与聚类匹配的光谱图像二次配准[J].激光杂志,2015,36(3):24-29. 被引量：1
6王琛.一种基于属性权值分组聚类的相似重复记录检测方法[J].宁波职业技术学院学报,2015,19(2):72-75.
7唐懿芳,钟达夫,严小卫.基于聚类模式的多数据源记录匹配算法[J].小型微型计算机系统,2005,26(9):1546-1550. 被引量：5
8杨永健,孙永雄,李树秋,张伟.网格计算中一种负载均衡聚类匹配迁移算法[J].微电子学与计算机,2006,23(10):119-121. 被引量：5
9屈景辉,廖琪梅,张星,荣皓月.MIS的多用户集中控制与数字回转柜系统[J].计算机系统应用,2006,15(1):68-70.
10崔晓军,肖红宇,丁立新.基于距离的自适应Web数据库记录匹配方法[J].武汉大学学报（理学版）,2012,58(1):89-94. 被引量：5

计算机工程与科学

2004年第9期

浏览历史

内容加载中请稍等...

基于聚类汇总的记录匹配算法被引量：2

参考文献4

共引文献50

同被引文献9

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于聚类汇总的记录匹配算法 被引量：2

参考文献4

共引文献50

同被引文献9

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于聚类汇总的记录匹配算法被引量：2