数据仓库中重复记录清理算法研究被引量：4

Research of data cleaning algorithm in data warehouse

下载PDF

导出

摘要针对重复记录清理中的"排序、识别、合并"算法存在的问题进行了改进。改进后的重复记录清理算法在保证记录匹配率的情况下有效地提高了记录排序的效率;在重复记录识别时,考虑了匹配字段的文字数量、在2个字段中出现的频率、在记录中各字段的重要性(权重)、中文字段的语义和语义重点偏后等5个因素;合并重复记录时采用了聚类和实用算法并用的策略,有效地提高了数据仓库中重复记录清理算法的准确性和健壮性。 This paper describes some advices for improving the problems in the ＂scheduling, detecting, merging＂ algorithm of duplicate elimination. The improved duplicate elimination algorithm has effectively promoted the efficiency of scheduling record on the environment that record matching rate was keeping high. In detecting duplicate records, it takes into account 4 factors. For instance, the number of characters, the frequency of character be found in the 2 fields, the importance （weight） of field in records ,the Chinese semantic and the semantic focus is always in the back location etc; In merging duplicate records, it uses both the cluster algorithm and practical algorithm to do that. It makes the data cleaning algorithm in data warehouse more accurate and healthier.

作者钟嘉庆张义芳卢志刚

机构地区燕山大学电气工程学院

出处《信息化纵横》 2009年第7期4-6,共3页

关键词数据清理重复记录清理重复记录识别数据仓库 data cleaning： duplicate elimination duplicate detecting data warehouse

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1LIN De Kang. An Information-theoretic Definition of Similarity[C]//Proc. Of the 15th Intermational Conf. on Machine Learning. San Francisco,CA,USA:Morgan Kaufmann, 1998.
2MONGE A. E, ELKAN C. An Efficient Domain-Independent Algorithm for Detecting Approximately Duplicate Database Records. DMKD,1997.
3GUTTMAN A. R-trees a dynamic index structure for spatial searching Proc. ACM SIGMOD Int Conf on Management of Data, 1984, 47-57.
4冯玉才,桂浩,李华,李又奎.数据分析和清理中相关算法研究[J].小型微型计算机系统,2005,26(6):1018-1022. 被引量：6
5HEMANDEZ, M A, STOLFO S J. The Merge/Purge Problem for Large Database[C].In SIGMOD Conference, 1995:127-138.
6洪圆,孙未未,施伯乐.一种使用双阈值的数据仓库环境下重复记录消除算法[J].计算机工程与应用,2005,41(1):168-170. 被引量：9
7张雪英,闾国年.基于字面相似度的地理信息分类体系自动转换方法[J].遥感学报,2008,12(3):433-441. 被引量：15
8刘宝艳,林鸿飞,赵晶.基于改进编辑距离和依存文法的汉语句子相似度计算[J].计算机应用与软件,2008,25(7):33-34. 被引量：22
9王源,吴晓滨,涂从文,刘滨,章元峰,王金娥.后控规范的计算机处理[J].现代图书情报技术,1993(2):4-7. 被引量：30
10赵妍妍,秦兵,刘挺,等.基于多特征融合的句子相似度计算[A].全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C],2006.

二级参考文献33

1刘海涛.依存语法和机器翻译[J].语言文字应用,1997(3):91-95. 被引量：43
2王源.中国化学文献检索系统的建库方针和今后发展[J].现代图书情报技术,1987(1):9-12. 被引量：2
3车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：64
4郭艳华,周昌乐.一种汉语语句依存关系网协动生成方法研究[J].杭州电子工业学院学报,2000,20(4):24-32. 被引量：11
5[5]China State Bureau of Technical Supervision.National Standard of the People's Republic of China Classification and Codes for the Features 1:5000 1:10000 1:25000 1:50000 1:100000 Topographic Maps.(GB/T 15660-1995)[S].1995.[国家技术监督局.中华人民共和国国家标准1:5000 1:10000 1:25000 1:50000 1:100000地形图要素分类与代码(GB/T15660-1995)[S].1995.]
6[6]China State Bureau of Technical Supervision.National Standard of the People's Republic of China Specifications for Feature Classification and Codes for Fundamental Geographic Information (GB/T 13923-2006)[S].2006.]国家技术监督局.中华人民共和国国家标准1:5000 1:10000 1:25000 1:500001:100000地形图要素分类与代码(GB/T 13923-2006)[S].2006]
7[8]Zhang X Y.Concept Integration of Document Databases Using Different Indexing Languages.[J] Information Processing & Management,2006,42:121-135.
8[13]Senellart P.Extraction of Information in Large Graphs.Automatic Search for Synonyms[R].Technical Report 2001-1990,Universite Catholique de Louvain,Louvain-la-Neuve,Belgium,2001.
9[17]Riesthuis G J A.Theory of Compatibility of Information Languages[A].Compatibility and Integration of Order System,Research Seminar Proceedings of the TIP/ISKO Meeting[C],1996.
10[18]Resnik,P.Using Information Content to Evaluato Semantic Similarity in a Taxonomy[A].The 14th International Joint Conference on Artificial Intelligence[C].Montreal,1995.

共引文献71

1陆勇,侯汉清.用于信息检索的同义词自动识别及其进展[J].南京农业大学学报（社会科学版）,2004,4(3):87-93. 被引量：25
2片玉君.《汉语主题词表》的新进展及其对中文自动标引的影响[J].现代图书情报技术,1994(3):22-25.
3王兰成,李超.改进的中文同义词相似匹配方法[J].中国图书馆学报,2005,31(3):61-64. 被引量：6
4陆长旭.后控词表的编制方法[J].中国图书馆学报,1994,20(6):18-21.
5贺昱曜,张阳,闫茂德,陈天琴.基于USS协议的电机测控系统设计与实现[J].电力自动化设备,2006,26(4):63-66. 被引量：3
6朱伟丽,韩宇,肖晓旦,陈先来.医学关键词与叙词对照表自动构建研究[J].现代图书情报技术,2006(8):51-54. 被引量：8
7张维芳.情真意挚妙笔华章——读《聊城:城乡处处好风景》[J].青年记者,2006(12):38-38.
8周全明.全文检索系统后控制技术初探[J].北京图书馆馆刊,1996,5(3):98-106. 被引量：5
9刘滨,秦聿昌,王源.微机辅助文献标引系统的设计与研究 1.总论[J].现代图书情报技术,1996(1):12-15. 被引量：7
10常娥,侯汉清,曹玲.古籍自动校勘的研究和实现[J].中文信息学报,2007,21(2):83-88. 被引量：16

同被引文献87

1车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：64
2陈伟,丁秋林.一种XML相似重复数据的清理方法研究[J].北京航空航天大学学报,2004,30(9):835-838. 被引量：7
3曹忠升,万劲伟.基于语义的数据清理技术[J].华中科技大学学报（自然科学版）,2005,33(2):76-78. 被引量：2
4韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
5陈伟,丁秋林.可扩展数据清理软件平台的研究[J].电子科技大学学报,2006,35(1):100-103. 被引量：10
6张永,迟忠先,闫德勤.数据仓库ETL中相似重复记录的检测方法及应用[J].计算机应用,2006,26(4):880-882. 被引量：15
7朱恒民,王宁生.一种改进的相似重复记录检测方法[J].控制与决策,2006,21(7):805-808. 被引量：12
8陆凤霞,王静秋,王宁生.一种开放式数据清理框架[J].南京航空航天大学学报,2006,38(4):459-463. 被引量：3
9陈卓,贺明霞,刘相双.基于扩展凝聚点和网格的增量聚类算法[J].哈尔滨工业大学学报,2006,38(8):1382-1385. 被引量：5
10夏骄雄,徐俊,吴耿锋.数据清理中同体不同源数据的数化算法研究[J].计算机工程,2007,33(1):71-73. 被引量：5

引证文献4

1叶焕倬,吴迪.相似重复记录清理方法研究综述[J].现代图书情报技术,2010(9):56-66. 被引量：21
2杨晓东,李军,王继荣,王芳.基于增量自适应的邻近排序算法优化[J].青岛大学学报（自然科学版）,2017,30(2):53-57. 被引量：2
3温伟鸽,吴超.基于编码对象模型的自动查重与赋码算法研究与应用[J].机械设计与制造工程,2012,41(A07):61-64.
4杜艾永,李立顺,朱愿,谢鑫鹏.基于汉字机内编码的中文相似重复记录消除研究[J].电脑知识与技术（过刊）,2009,15(10X):8314-8316. 被引量：3

二级引证文献26

1王静婷.基于汉字聚类特征的中文字符串相似度计算研究[J].现代图书情报技术,2011(2):48-53. 被引量：6
2叶焕倬,吴迪.基于改进编辑距离的相似重复记录清理算法[J].现代图书情报技术,2011(7):82-90. 被引量：7
3刘雪琼,武刚,邓厚平.Web信息整合中的数据去重方法[J].计算机应用,2013,33(9):2493-2496. 被引量：4
4蒋勋,刘喜文.大数据环境下面向知识服务的数据清洗研究[J].图书与情报,2013(5):16-21. 被引量：47
5马晓亭.大数据时代图书馆数据整合系统构建研究[J].图书馆建设,2014(6):83-87. 被引量：15
6郭文龙.基于长度过滤和有效权值的SNM改进算法[J].计算机工程与应用,2014,50(19):123-127. 被引量：7
7郭文龙,董建怀.基于模糊综合评判的相似重复记录清洗方法[J].北京信息科技大学学报（自然科学版）,2017,32(4):59-63. 被引量：3
8郑亚光,潘久辉.一种基于滑动分块的重复数据检测算法[J].计算机工程,2016,42(2):38-44. 被引量：7
9黄建琼.基于二次模糊评判的相似重复记录检测方法[J].江苏师范大学学报（自然科学版）,2016,34(1):39-42. 被引量：3
10孙晓玲,郑勉,李伟勤,罗恩韬.位置信息记录中基于期望最大化的名称消重算法[J].计算机科学,2016,43(3):238-241.

1蔡钟杰,雷斌,张伟.关于重复记录数据清理算法研究[J].信息技术与信息化,2013(4):32-34. 被引量：3
2冷鹏.基于记录匹配算法的记录清理研究[J].科协论坛（下半月）,2007(7):55-56.
3王远敏.图像数据库建立与相似性搜索方法研究[J].信息与电脑（理论版）,2011(10):165-165. 被引量：1
4刘积芬.在数据库应用程序中实现记录的即时排序[J].计算机与现代化,1998(1):21-22.
5胡国亮.会计电算化系列讲座第十五讲数据库管理（三）[J].中华会计函授,1995(11):31-34.
6沈忱,曾卫明,吴爱华.融合修复代价的不一致关系数据中相似重复记录识别[J].现代计算机（中旬刊）,2015(6):3-9. 被引量：1
7佘春红,许向阳.关系数据库中近似重复记录的识别[J].计算机应用研究,2003,20(9):36-39. 被引量：7
8陈和平,姜旭,李晓卉.基于组件技术的数据库中文字段快速检索方法及实现[J].武汉科技大学学报,2002,25(1):81-83.
9肖满生,周浩慧,王宏.基于模糊综合评判的相似重复记录识别方法[J].计算机工程,2010,36(13):51-53. 被引量：14
10Word中的文本如何批量变成图片[J].电脑爱好者（普及版）,2009(5):92-92.

信息化纵横

2009年第7期

浏览历史

内容加载中请稍等...

数据仓库中重复记录清理算法研究被引量：4

参考文献11

二级参考文献33

共引文献71

同被引文献87

引证文献4

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

数据仓库中重复记录清理算法研究 被引量：4

参考文献11

二级参考文献33

共引文献71

同被引文献87

引证文献4

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

数据仓库中重复记录清理算法研究被引量：4