基于聚类模式的多数据源记录匹配算法被引量：5

Matching Data Records Among Multi Data Sources Based on Clustering Techniques

下载PDF

导出

摘要提出了一种基于聚类技术的多数据源记录匹配算法,该算法运用的罩盖(Canopy)聚类技术是一种专门对付大型数据的聚类方法,此算法不仅是一个与应用领域无关的算法,跟其它模型相比,在保证原有准确程度的前提下,大大地减少了必需的计算量,提高了记录匹配的效率. This paper put forward an algorithm, by using the canopy clustering technique which focuses on large data set, to match data records among multi data sources. The algorithm is a kind of domain-independent method, and compare to other model, when it promises the algorithm＇s accuracy, this method increases the effectiveness.

作者唐懿芳钟达夫严小卫

机构地区广西师范大学计算机科学系

出处《小型微型计算机系统》 CSCD 北大核心 2005年第9期1546-1550,共5页 Journal of Chinese Computer Systems

基金广西师范大学青年基金资助.

关键词记录匹配 Canopy聚类技术实体聚类 record matching canopy clustering technique entity cluster

分类号 TP311.131 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1Howard B Newcombe. Handbook of record linkage: Methods for health and statistical studies, administration, and business[M]. Oxford University Press,1998.
2Hernandez M, Stolfo S. The merge/purge problem for large databases[C]. Proceedings of the ACM SIGMOD International Conference on Management of Data. 1995, May: 127-138.
3Monge A, Elkan C. An efficient domain-independent algorithm for detecting approximately duplicate database records[C]. Proceeding of SIGMOD Workshop on Research Issues on Data Mining and Knowledge Discovery, Tucson, Arizona, 1997.
4Jeremy A Hylton. Identifying and merging related bibliographic records[R]. M.S. thesis. MIT, Published as MIT Laboratory for Computer Science Technical Report 678, 1996.
5McCallum A, Nigam K, Ungar L. Efficient clustering of highdimensional data sets with application to reference matching[C]. Proceedings of the Sixth International Conference on Knowledge Discovery and Data Mining, 2000,169-178.
6Charles L A Clarke, Gordon V Cormack. Dynamic inverted indexes for a distributed full-text retrieval system[R]. Technical Report MT-95-01.
7Boyer R S, Moore J S. A fast string-searching algorithm[J].Communications of the ACM. 1977, 20(10):762-772.

同被引文献53

1崔丽群,刘万军,包明宇.基于神经网络数据分类方法[J].辽宁工程技术大学学报（自然科学版）,2004,23(4):507-509. 被引量：7
2刘全,孙吉贵,于万钧.自由变量语义tableau中δ-规则的一种改进方法[J].计算机研究与发展,2004,41(7):1068-1073. 被引量：8
3李广建.整合研究的几个理论问题[J].图书情报工作,2005,49(10):5-10. 被引量：16
4韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
5夏骄雄,徐俊,吴耿锋.数据清理中同体不同源数据的数化算法研究[J].计算机工程,2007,33(1):71-73. 被引量：5
6童小华,邓愫愫,史文中.基于概率的地图实体匹配方法[J].测绘学报,2007,36(2):210-217. 被引量：78
7Xiong D. and Sperling J. Semiautomated matching for network database integration[ J ] . Photogrammetric Engineering and Remote Sensing, 1992, 59(1-2) .
8Novak K. Rectification of digital imagery [J] . Photogram- metric Engineering and Remote Sensing, 1992, 58(3) .
9Volz S. An Interactive Approach for Matching Multiple Representations of Street Data [ DB/OL] . http: // www. ikg. uni-hannover, de/isprs/workshop2006/Paper/ 6006/2-Workshop_ Hannover_ Volz. pdf, 2006.
10Rosen B. and Saalfeld A. Match criteria for automatic alignment [ C ] //Proceedings of 7th International Sym- posium on Computer-Assisted Cartography (Auto-Carto 7), pl-20, 1985.

引证文献5

1王育红.基于实例的语义相似属性识别方法[J].辽宁工程技术大学学报（自然科学版）,2006,25(B06):203-205.
2胡天硕,毛政元.线实体候选匹配集的优化方法研究[J].测绘科学,2011,36(2):132-135. 被引量：5
3李娇,刘全,傅启明,王庭钢.分布式数据库中基于局部CON模型的记录匹配方法[J].通信学报,2011,32(7):196-202. 被引量：4
4刘雪琼,武刚,邓厚平.Web信息整合中的数据去重方法[J].计算机应用,2013,33(9):2493-2496. 被引量：4
5吴辰文,李壮,梁雨欣.基于Canopy的KFCM聚类优化算法[J].西北大学学报（自然科学版）,2022,52(3):444-451. 被引量：3

二级引证文献16

1袁建华,蒋文军,李洪强,徐杰,高延玲.基于SSA-BiLSTM非线性组合方法的光伏功率预测[J].电子测量技术,2023,46(21):63-71. 被引量：2
2徐翔,邹复民,廖律超,朱铨.基于GemFire的海量数据计算性能实验分析[J].计算机应用,2013,33(1):226-229. 被引量：5
3高龙,刘全,傅启明,李娇.基于tableau结点封闭值的非一致性数据库开放分支修复方法[J].计算机科学,2013,40(4):177-180.
4马晓亭.大数据时代图书馆数据整合系统构建研究[J].图书馆建设,2014(6):83-87. 被引量：15
5邹丹,毛政元,李继红,刘小伶.核密度估计的道路匹配方法探讨[J].测绘科学,2015,40(7):104-108. 被引量：1
6王鹏,郑贵省,周伟,王元,车亚辉,李月明.基于stroke分级的道路网匹配研究[J].国防交通工程与技术,2015,13(5):16-18. 被引量：1
7王鹏,郑贵省,王元.基于多相似度量指标的路网匹配算法研究[J].微型机与应用,2016,35(1):19-22. 被引量：2
8王骁,钱海忠,刘海龙,何海威,陈竞男.利用道路分类进行道路网层次迭代匹配[J].武汉大学学报（信息科学版）,2016,41(8):1072-1078. 被引量：3
9季金鑫,姜丽红,蔡鸿明.基于聚类的个人健康档案补全方法的研究与实现[J].东华大学学报（自然科学版）,2016,42(4):466-472. 被引量：1
10张建春,李勃,董蓉.基于属性权值多级分类的测试样本数据预处理[J].电视技术,2017,41(3):76-80. 被引量：4

1李娇,刘全,傅启明,王庭钢.分布式数据库中基于局部CON模型的记录匹配方法[J].通信学报,2011,32(7):196-202. 被引量：4
2唐懿芳,钟达夫,严小卫.基于聚类模式的数据清洗技术[J].计算机应用,2004,24(5):116-119. 被引量：13
3王琛.一种基于属性权值分组聚类的相似重复记录检测方法[J].宁波职业技术学院学报,2015,19(2):72-75.
4洪立印,徐蔚然.一种结构化数据关系特征抽取和表示模型[J].软件,2013,34(12):148-151. 被引量：9
5朱敏,贾真,左玲,吴安峻,陈方正,柏玉.中文微博实体链接研究[J].北京大学学报（自然科学版）,2014,50(1):73-78. 被引量：12
6崔晓军,肖红宇,丁立新.基于距离的自适应Web数据库记录匹配方法[J].武汉大学学报（理学版）,2012,58(1):89-94. 被引量：5
7冯冲,石戈,郭宇航,龚静,黄河燕.基于词向量语义分类的微博实体链接方法[J].自动化学报,2016,42(6):915-922. 被引量：12
8周先保.基于UG建模法的罩盖模具设计[J].江西化工,2015,31(4):50-51.
9王亦雷,嵇智源,夏勇,秦臻,程红蓉.移动用户人口统计信息预测[J].电子科技大学学报,2015,44(6):917-920. 被引量：2
10边旭,王明兴,黎俊茂,叶家华.药品名称匹配识别技术研究[J].信息与电脑,2016,28(4):122-124.

小型微型计算机系统

2005年第9期

浏览历史

内容加载中请稍等...

基于聚类模式的多数据源记录匹配算法被引量：5

参考文献7

同被引文献53

引证文献5

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于聚类模式的多数据源记录匹配算法 被引量：5

参考文献7

同被引文献53

引证文献5

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于聚类模式的多数据源记录匹配算法被引量：5