一种XML相似重复数据的清理方法研究被引量：7

Study on an XML approximately duplicated data cleaning method

下载PDF

导出

摘要针对半结构化数据XML在数据清理中的重要性 ,研究了如何清理XML相似重复数据 ,主要工作有 :提出一种有效的XML相似重复数据清理方法 ,该方法具有较强的适应性 ,任何XML相似检测算法都适用于此 ;给出一种基于树编辑距离的相似检测算法 ,该算法能有效地检测XML相似重复数据 ;采用树编辑距离的上下限优化基于树编辑距离的相似检测算法 ,避免了不必要的树编辑距离计算 ,降低了相似检测计算的复杂度 ,提高了运算效率 . Aiming at the importance of semi-structured data XML in data cleaning, how to clean XML approximately duplicated data was studied. An efficient XML approximately duplicated data cleaning method was proposed. This method is adaptive, because any other approximately detecting algorithm can be used in it. An efficient approximately detecting algorithm based on tree edit distance was presented. This algorithm can detect approximately duplicated data efficiently. The lower and upper bounds of tree edit distance were used to optimize the approximately duplicated data detecting algorithm. The improved algorithm can avoid computing the tree edit distance that is unnecessary between a pair of XML data, and reduce the approximate computation complexity. So, foundations are built for researching XML approximately duplicated data cleaning.

作者陈伟丁秋林

机构地区南京航空航天大学计算机应用研究所

出处《北京航空航天大学学报》 EI CAS CSCD 北大核心 2004年第9期835-838,共4页 Journal of Beijing University of Aeronautics and Astronautics

关键词规则库算法库数据清理可扩展标记语言相似重复数据 Algorithms Computational complexity Navier Stokes equations Structured programming Trees (mathematics) XML

分类号 TP311.52 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1[1]Rahm E, Do H H.Data cleaning:problems and current approaches[J].IEEE Data Engineer Bulletin, 2000, 23(4):3～13
2[2]Galhardas H, Florescu D, Shasha D,et al .Declarative data cleaning:language,model,and algorithms[A].In:Apers P, Atzeni P,Ceri S,eds.Proceedings of the 27th VLDB Conference[C].Roma:Morgan Kaufmann, 2001.371～380
3[3]Monge A E.Matching algorithms within a duplicate detection system[J].IEEE Data Engineer Bulletin, 2000,23(4):14～20
4[4]Zhang K,Shasha D.Tree pattern matching[M].London:Oxford Univesity Press,1997
5[5]Guha S, Jagadish H V, Koudas N, et al .Approximate XML joins[A].In:Proceedings of the 2002 ACM SIGMOD International Conference on Management of Data[C].Madison:ACM Press,2002

同被引文献129

1车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：63
2汤南,于亚新,王国仁,于戈.一种并行XML数据分片算法的设计与实现[J].小型微型计算机系统,2004,25(7):1164-1169. 被引量：3
3曹忠升,万劲伟.基于语义的数据清理技术[J].华中科技大学学报（自然科学版）,2005,33(2):76-78. 被引量：2
4张丙奇,白硕,赵章界.XML数据相似度研究[J].计算机工程,2005,31(11):25-27. 被引量：6
5韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
6陈伟,丁秋林.可扩展数据清理软件平台的研究[J].电子科技大学学报,2006,35(1):100-103. 被引量：10
7王国仁,汤南,于亚新,孙冰,于戈.一种并行XML数据库分片策略[J].软件学报,2006,17(4):770-781. 被引量：7
8朱恒民,王宁生.一种改进的相似重复记录检测方法[J].控制与决策,2006,21(7):805-808. 被引量：12
9陆凤霞,王静秋,王宁生.一种开放式数据清理框架[J].南京航空航天大学学报,2006,38(4):459-463. 被引量：3
10徐晓华,陈崚.一种自适应的蚂蚁聚类算法[J].软件学报,2006,17(9):1884-1889. 被引量：55

引证文献7

1杨长辉,岳友友.一种基于编辑距离的XML查询方案[J].计算机应用,2006,26(12):2991-2993. 被引量：2
2刘波,杨路明,雷刚跃,邓云龙.面向XML数据库的智能数据清洗策略[J].计算机工程,2008,34(16):16-18. 被引量：4
3刘波,杨路明,谢东,邓云龙.自适应的混沌蚁群聚类XML分片模型[J].小型微型计算机系统,2008,29(12):2319-2323.
4叶焕倬,吴迪.相似重复记录清理方法研究综述[J].现代图书情报技术,2010(9):56-66. 被引量：21
5邓慧挺,毛宇光.不确定数据的重复记录检测[J].计算机技术与发展,2012,22(8):60-62.
6王继奎,李少波.数据源敏感的多源XML数据相似度量方法[J].华南理工大学学报（自然科学版）,2014,42(7):28-32.
7陆荣秀,赖路璐,杨辉,朱建勇.基于混合虚拟样本生成的铈镨/钕组分含量预测[J].控制与决策,2023,38(4):1129-1136. 被引量：1

二级引证文献28

1李元韬,曹志宇,李敬文.基于权重编辑距离的XML查询[J].兰州交通大学学报,2010,29(3):108-111. 被引量：1
2刘铮,刘伟.XML数据中孤立点检测方法研究[J].计算机工程与设计,2010,31(18):4001-4004. 被引量：3
3张建中,方正,熊拥军,袁小一.对基于SNM数据清洗算法的优化[J].中南大学学报（自然科学版）,2010,41(6):2240-2245. 被引量：17
4叶焕倬,吴迪.基于改进编辑距离的相似重复记录清理算法[J].现代图书情报技术,2011(7):82-90. 被引量：7
5叶鸥,张璟,李军怀.中文数据清洗研究综述[J].计算机工程与应用,2012,48(14):121-129. 被引量：42
6刘雪琼,武刚,邓厚平.Web信息整合中的数据去重方法[J].计算机应用,2013,33(9):2493-2496. 被引量：4
7蒋勋,刘喜文.大数据环境下面向知识服务的数据清洗研究[J].图书与情报,2013(5):16-21. 被引量：47
8马晓亭.大数据时代图书馆数据整合系统构建研究[J].图书馆建设,2014(6):83-87. 被引量：15
9郭文龙.基于长度过滤和有效权值的SNM改进算法[J].计算机工程与应用,2014,50(19):123-127. 被引量：7
10郭文龙,董建怀.基于模糊综合评判的相似重复记录清洗方法[J].北京信息科技大学学报（自然科学版）,2017,32(4):59-63. 被引量：3

1马平全,宋凯,纪建伟.基于N-Gram算法的数据清洗技术[J].沈阳工业大学学报,2017,39(1):67-72. 被引量：10
2费晓燕,张海燕.一种用EM算法进行数据清理的方法[J].空军雷达学院学报,2003,17(2):44-46.
3王闪,谭良.Web大数据环境下的相似重复数据清理[J].计算机工程与设计,2017,38(3):646-651. 被引量：14
4谢兰清,王彩霞,莫毅,李俊.云模型理论的遥感图像边缘检测计算探究[J].电子技术与软件工程,2015(5):112-112.
5佘春红.数据清理方法[J].计算机应用,2002,22(12):128-130. 被引量：4
6张峰伟,陈兴蜀,尹学渊,刘莉伟.一种Web使用挖掘数据清理方法[J].四川大学学报（工程科学版）,2014,46(S1):160-165. 被引量：4
7覃远翔,段亮,岳昆.基于信息熵的不确定性数据清理方法[J].计算机应用,2013,33(9):2490-2492. 被引量：9
8王静,刘观宁,张钰辉.网页去重的改进算法[J].微型机与应用,2011,30(12):16-18.
9曹立伟,于磊.AS/400系统的数据清理方法[J].软件世界,2000(8):104-105.
10翟凌慧,马少平,唐焕玲.银行信用卡分类挖掘数据的预处理[J].计算机工程,2003,29(11):195-196. 被引量：8

北京航空航天大学学报

2004年第9期

浏览历史

内容加载中请稍等...

一种XML相似重复数据的清理方法研究被引量：7

参考文献5

同被引文献129

引证文献7

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

一种XML相似重复数据的清理方法研究 被引量：7

参考文献5

同被引文献129

引证文献7

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

一种XML相似重复数据的清理方法研究被引量：7