一种相似重复元数据记录检测方法被引量：3

Method for Approximately Duplicate Metadata Record Detection

下载PDF

导出

摘要对联邦数字图书馆中重复元数据记录进行检测和管理,是保证元数据质量、提高联邦检索服务质量的关键。针对现有联邦数字图书馆中重复记录检测方法计算集中、准确度不高等缺点,提出一种快速高效的相似重复元数据记录检测方法,该方法基于改进的N-Gram方法,适合较大规模联邦数字图书馆。模拟实验结果表明,该方法能有效提高重复检测的性能,加快重复检测的速度。 Metadata records duplicate detection and management of federated digital library are one of key issues to ensure metadata quality and improve federal retrieval services. Many duplicate record detection methods exist for conventional federated digital library, but they are computationally intensive and low accuracy and so on. This paper proposes an efficient duplication approach for a relatively large federated digital library based on improved N-Gram method. Simulation experimental results show that the method improve the performance of duplicate detection effectively, accelerate the rate of duplicate detection.

作者王常武韩菁华张付志

机构地区燕山大学信息科学与工程学院

出处《计算机工程》 CAS CSCD 北大核心 2009年第21期85-87,共3页 Computer Engineering

基金河北省自然科学基金资助项目(F2008000877)

关键词元数据重复记录检测 N-Gram方法相似度 metadata duplicate record detection N-Gram method similarity

分类号 TP311.52 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1Harrison T L, Elango A, Bollen J, et al. Initial Experiences Re-exporting Duplicate and Similarity Computations with an OAI-PMH Aggregator[R]. Norfolk, VA, USA: Old Dominion University, Tech. Rep.: cs.DL/0401001, 2004.
2] Khan H M, Maly K, Zubair M. Similarity and Duplicate Detection System for an OAI Compliant Federated Digital Library[C]//Proc. of ECDL'05. Vienna, Austria: [s. n.], 2005.
3Foulonneau M. Information Redundancy Across Metadata Collections[J]. Information Processing and Management, 2007, 43(3): 740-751.
4Yang Hui, Callan J. Near-duplicate Detection by Instance-level Constrained Clustering[C]//Proc. of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Seattle, Washington, USA: ACM Press, 2006.
5Newman D, Hagedom K, Smyth C C P. Subject Metadata Enrichment Using Statistical Topic Models[C]//Proc. of JCDL'07. Vancouver, Canada: ACM Press, 2007.

同被引文献37

1陈振洲,李磊,姚正安.基于SVM的特征加权KNN算法[J].中山大学学报（自然科学版）,2005,44(1):17-20. 被引量：51
2陈细谦,迟忠先,昃宗亮,苏立强.地理编码在空间数据仓库ETL中的应用[J].小型微型计算机系统,2005,26(4):628-630. 被引量：11
3刘伟,曹先彬.对基于MPN的相似重复记录识别算法的改进[J].微计算机信息,2005,21(08X):147-149. 被引量：6
4张永,迟忠先,闫德勤.数据仓库ETL中相似重复记录的检测方法及应用[J].计算机应用,2006,26(4):880-882. 被引量：15
5张永,迟忠先.位置编码在数据仓库ETL中的应用[J].计算机工程,2007,33(1):50-52. 被引量：12
6Mange A. An Adaptive and Efficient Algorithm for Detecting Approximately Duplicate Database Records [ EB/OL]. ( 2007 - 09 - 02). [ 2010 - 11 - 01 ]. http ://citeseer. ist. psu. edu/mon- geovadaptive, html.
7Monge A E, Elkan C P. An Efficient Domain - independent Algorithm for Detecting Approximately Duplicate Database Records [ C ]. In: Proceedings of the SIFMOD Workshop on Data Mining and Knowledge Discovery, Tuscan, Arizona, United States. 1997 : 23 - 29.
8Foulonneau M. Information Redundancy Across Metadata Collections [ J ]. Information Processing and Management, 2007, 43 (3) :740 -751.
9Liang J, Chen L, Mehrotra S. Efficient Record Linkage in Large Data Sets[ C ]. In: Proceedings of the 8th International Conference on Database Systems for Advanced Applications, Kyoto, Japan. 2003 : 137 - 148.
10Chandhurt S, Ganjam K, Ganti V, et al. Robust and Efficient Fuzzy Match for Online Data Cleaning [ C ]. In : Proceedings of ACM SIGMOD International Conference Management of Data. New York : ACM Press ,2003:313 - 324.

引证文献3

1雷孝平,张旭,赵蕴华,郑佳.基于IRPU算法的专利数据相似重复属性及记录检测方法[J].现代图书情报技术,2010(12):46-51. 被引量：2
2郭文龙.一种改进的相似重复记录检测算法[J].计算机应用与软件,2014,31(1):293-295. 被引量：7
3王巍,刘阳,洪惠君,梁雅静.基于CNN的安防数据相似重复记录检测模型[J].计算机应用与软件,2023,40(2):17-25.

二级引证文献9

1谢文阁,佟玉军,贾丹,梅红岩.数据清洗中重复记录清洗算法的研究[J].软件工程师,2015(9):61-62. 被引量：5
2郭文龙,董建怀.基于模糊综合评判的相似重复记录清洗方法[J].北京信息科技大学学报（自然科学版）,2017,32(4):59-63. 被引量：3
3黄建琼.基于二次模糊评判的相似重复记录检测方法[J].江苏师范大学学报（自然科学版）,2016,34(1):39-42. 被引量：3
4路霞,吴鹏,王曰芬,张金柱.中文专利数据地址信息清洗框架及实现[J].情报理论与实践,2016,39(4):128-132. 被引量：6
5潘玮,牟冬梅,李茵,刘鹏.关键词共现方法识别领域研究热点过程中的数据清洗方法[J].图书情报工作,2017,61(7):111-117. 被引量：42
6宋国兴,周喜,马博,赵凡.关键属性组的相似重复记录检测方法研究[J].科学技术与工程,2017,17(19):65-71. 被引量：3
7马可,郑广海.一种针对关系数据库记录的相似重复记录检测算法[J].电脑知识与技术,2018,14(5):25-28. 被引量：5
8王旭东,段敬,温志坚,楼颖稚,陈伟,孔德云,黄豆豆.基于相似重复记录的N-Gram算法的改进与应用[J].现代计算机,2018,24(17):78-82. 被引量：3
9张苗苗,苏勇.基于SNM算法的大数据量中文商品清洗方法[J].计算机与数字工程,2019,47(3):625-627. 被引量：1

1李运田,吴琼,郑献卫.改进的TF-IDF模型在特征抽取中的应用[J].工业控制计算机,2014,27(2):51-51. 被引量：3
2马翔.基于粒子群优化BP神经网络的重复记录检测方法[J].湖南涉外经济学院学报,2010,0(4):68-70. 被引量：1
3马翔.粒子群优化BP神经网络用于重复记录检测[J].辽宁工程技术大学学报（自然科学版）,2010,29(5):959-962. 被引量：4
4王鸿,余建桥.基于N-Gram的Deep Web接口属性抽取[J].计算机与现代化,2010(12):135-138. 被引量：1
5刘喜文,郑昌兴,王文龙,汤刚强.构建数据仓库过程中的数据清洗研究[J].图书与情报,2013(5):22-28. 被引量：18
6陈芬.改进量子粒子群算法优化神经网络的数据库重复记录检测[J].计算机应用与软件,2014,31(3):20-21. 被引量：10
7熊伟,吴钊,李兵,谷琼,宁彬.一种基于语义的时空敏感社会关系模型[J].小型微型计算机系统,2016,37(6):1207-1211. 被引量：1
8夏成锋.基于n-gram及SVM的中文垃圾邮件过滤[J].广东广播电视大学学报,2008,17(1):100-103.
9罗毅,李利,谭松波,程学旗.基于中文微博语料的情感倾向性分析[J].山东大学学报（理学版）,2014,49(11):1-7. 被引量：11
10时念云,张金明,褚希.基于CURE算法的相似重复记录检测[J].计算机工程,2009,35(5):56-58. 被引量：11

计算机工程

2009年第21期

浏览历史

内容加载中请稍等...

一种相似重复元数据记录检测方法被引量：3

参考文献5

同被引文献37

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种相似重复元数据记录检测方法 被引量：3

参考文献5

同被引文献37

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种相似重复元数据记录检测方法被引量：3