基于Hadoop平台的XML文档重复数据检测被引量：1

XML Data Duplicate Detection Based on Hadoop Platform

下载PDF

导出

摘要 XML数据越来越广泛地被用于信息交换与集成中,其数据质量问题引起了人们的关注.解决由数据质量引发的问题,实体识别技术非常关键.为了克服现有方法的不足,在海量XML数据上进行高效的重复对象检测,以实体识别技术为基础提出了基于Hadoop平台的XML文档重复检测算法,它将所有标签节点统称为属性,用实体来描述属性,通过属性的比较,快速地找到在某些属性上相同的所有实体对象,并利用Hadoop应用框架处理海量数据的优势实现并行处理.经过试验验证该方法良好的扩展性,伸缩性和高效性. As being more and more widely used for data exchange and integration, the XML data quality issues cause more concern. In order to overcome the problems caused by data quality, Entity Resolution（ER） is critical. To overcome the drawbacks of current methods＇s deficiency and perform entity resolution efficiently and effectively on massive XML data set, under the basis of Entity Resolution, an XML data duplicate detection based on hadoop platform algorithm is presented in this paper. The method uses entities to describe their atrributes. By the comparing of the attributes,we can find all the objects that have the same attributes quickly. Meanwhile, taking the advantage of the Hadoop platform which can process massive data parallel. From the experiments, the method has excellent performance in scalability, flexibility and efficiency.

作者李振兴刘波

机构地区暨南大学信息科学技术学院学院

出处《计算机系统应用》 2013年第11期195-199,共5页 Computer Systems & Applications

关键词 XML 数据质量重复检测 HADOOP 分布式 XML data quality duplicate detection Hadoop distribute

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1Hernandez MA, Stolfo SJ. Real-world data is dirty:datacleansing and the merge/purge problem. Data Mining andKnowledge Discovery, 1988,2(1): 9-37.
2Hassanzadeh 0,Sadoghi M,Miller RJ. Accuracy of approxi-mate string joins using grams. Proc. of the International.Workshop on Quality in Database(QDB). Vienna, Austria.2007.11-18.
3Hassanzadeh O. Benchmarking declarative ^proximate selec-tion redicates. University of Toronto, Canada, 2007.
4Whang SE, Menestrina D, Koutrika G Entity resolution withiterative blocking. Proc. of the 35th SIGMOD InternationalConference on Management of Data. Rhode Island, USA.2009.219-231.
5Weis M, Naumann F. Detecting duplicate objects in XMLdocuments. Proc. of the IQIS. Pairs, France. 2004.10-19.
6Weis G, Naumann F. DogmatiX tracks down duplicates inXML. Proc. of the ACM SIGMOD 2005. New York,USA.2005.431442.
7Pluempitiwiriyawej C,Hammer J. Element matching acrossdata-oriented XML sources using a multi-strategy clusteringmodel. Data&Knowledge Engineering, 2004,48(3): 297-333.
8王天亮陈刚徐宏炳.基于对象树相似匹配的XML重复对象检测[J].计算机科学,2006,:162-166.
9Karr AF. Exploratory data mining and data cleaning. Journalof the American Statistical Association, 2006,101(473):399-399.
10Low WLS Lee ML, Ling TW. A knowledge-based approachfor duplicate Elimination in data cleaning. InformationSystems, 2001,26(8): 585-606.

共引文献1

1李亚坤,王宏志,高宏,李建中.基于实体描述属性技术的XML重复对象检测方法[J].计算机学报,2011,34(11):2131-2141. 被引量：6

同被引文献11

1Ripon K S N,Rahman A.A Domain-independent Data Cleaning Algorithm for Detecting Similar-duplicates[J].Journal of Computers,2010,5(12):1800-1809.
2Lee Woo-joong,Park C.An Adaptive Chunking Method for Personal Data Backup and Sharing[C]//Proceedings of the 8th USENIX Conference on File and Storage Technologies.San Antionio,USA:USENIX Association,2010:758-762.
3Wang Guiping,Chen Shuyu,Lin Mingwei.SBBS:A Sliding Blocking Algorithm with Backtracking Subblocks for Duplicate Data Detection[J].Expert Systems with Applications,2014,41(5):2415-2423.
4Tridgell A.Efficient Algorithms for Sorting and Synchronization[D].Canberra,Australia:Australian National University,1999.
5敖莉,舒继武,李明强.重复数据删除技术[J].软件学报,2010,21(5):916-929. 被引量：119
6叶焕倬,吴迪.相似重复记录清理方法研究综述[J].现代图书情报技术,2010(9):56-66. 被引量：21
7叶鸥,张璟,李军怀.中文数据清洗研究综述[J].计算机工程与应用,2012,48(14):121-129. 被引量：42
8赵晓永,杨扬,王宁.基于声学指纹的海量MP3文件近似去重方法[J].计算机工程,2013,39(7):73-75. 被引量：2
9孙娜,吴兰兰.一种节点加权的相似重复XML数据检测算法[J].计算机光盘软件与应用,2014,17(2):99-100. 被引量：3
10孙爱玲,冉禄纯.一种基于重复数据删除的网络文件备份系统设计与实现[J].计算机应用与软件,2014,31(10):86-90. 被引量：8

引证文献1

1郑亚光,潘久辉.一种基于滑动分块的重复数据检测算法[J].计算机工程,2016,42(2):38-44. 被引量：7

二级引证文献7

1周斌,朱容波,张莹.基于位串内容感知的数据分块算法[J].计算机工程与科学,2016,38(10):1967-1973.
2赵倩倩.动态数据环境下网络重复数据检测方法仿真[J].计算机仿真,2017,34(6):445-448. 被引量：5
3宋国兴,周喜,马博,赵凡.基于R-树索引的高维相似重复记录检测改进算法[J].微电子学与计算机,2017,34(9):97-102. 被引量：3
4文明瑶.移动数据库中企业信息质量优化选择研究[J].计算机仿真,2018,35(2):380-383.
5葛菁,徐亦丹,赵巍.自然场景下交通标志立柱材料防腐性检测仿真[J].计算机仿真,2019,36(3):325-328.
6蒙芳,翟建丽.多数据源近似重复记录增量式识别方法仿真[J].计算机仿真,2020,37(8):362-365.
7曹增新,蒋程,朱龙辉.基于分块离散余弦变换感知哈希算法与ResNet模型的供电安全图像管理[J].西安工程大学学报,2021,35(6):62-68. 被引量：3

1段梦博,蔡兴旺.基于内容的重复数据删除技术的研究[J].电脑知识与技术,2010,6(8):6275-6277. 被引量：3
2李亚坤,王宏志,高宏,李建中.基于实体描述属性技术的XML重复对象检测方法[J].计算机学报,2011,34(11):2131-2141. 被引量：6
3崔兴华,杜晓黎,赵晓睿.重复数据检测在多版本数据备份中的应用[J].计算机应用研究,2009,26(1):206-208. 被引量：4
4谢垂益,钟红君.Rabin指纹算法在重复数据检测中的应用研究[J].电脑知识与技术,2013,9(7X):4918-4920.
5蓝悦明,陈浩.GIS中道路重复检测算法的实现[J].武汉理工大学学报（信息与管理工程版）,2011,33(3):339-341. 被引量：3
6邓雪峰,孙瑞志,张永瀚,聂娟.基于数据位图的滑动分块算法[J].计算机研究与发展,2014,51(S2):30-38. 被引量：2
7谢垂益,卿斯汉.基于极值点分块的重复数据检测算法[J].信息网络安全,2013(8):10-12.
8董富森,杨波,马坤,王文华.MapReduce模型下增量重复数据检测方法[J].济南大学学报（自然科学版）,2015,29(4):241-245. 被引量：3
9徐旦,生拥宏,鞠大鹏,吴建平,汪东升.高效的两轮远程文件快速同步算法[J].计算机科学与探索,2011,5(1):38-49. 被引量：12
10郑亚光,潘久辉.一种基于滑动分块的重复数据检测算法[J].计算机工程,2016,42(2):38-44. 被引量：7

计算机系统应用

2013年第11期

浏览历史

内容加载中请稍等...

基于Hadoop平台的XML文档重复数据检测被引量：1

参考文献13

共引文献1

同被引文献11

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于Hadoop平台的XML文档重复数据检测 被引量：1

参考文献13

共引文献1

同被引文献11

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于Hadoop平台的XML文档重复数据检测被引量：1