一种有效的XML数据清洗方法被引量：1

Efficient Cleaning Approach for XML Data

下载PDF

导出

摘要研究XML格式的重复数据元素的特点,提出对于特定应用领域,在具体的上下文环境中主动学习XML重复元素的识别规则。通过结构转换,将结构不尽相同的XML数据映射成结构一致的数据,并通过学习不同层次数据元素间的依赖关系权重来获得匹配规则。根据学习得到的转换和匹配规则,采用哈希过滤的方法来提高检测重复XML元素的效率。该方法能够有效地解决XML重复检测面临的结构多样性的问题,理论分析和实验表明,该方法有较高的精度和效率。 By studying characteristics of duplicate XML data, this paper proposes an active machine learning method for a specific application, which is applied to glean transformation rules and matching rules, and accurately identify duplicate XML elements. Transfomation rules are used to eliminate the structural diversities among elements and matching rules are used to identify the relationships between parent and child nodes. In turn, during the detection phase an efficient hash filter algorithm is proposed to reduce computational complexity. Theory and experiment shows that the method can solve this problem efficiently and effectively.

作者韩京宇成瑜董逸生

机构地区南京邮电大学计算机学院东南大学计算机科学与工程系

出处《计算机工程》 CAS CSCD 北大核心 2008年第15期47-50,共4页 Computer Engineering

基金江苏省"十五"高科技计划基金资助项目(BG2001013)

关键词主动学习匹配规则哈希 active learning matching rules hash

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1Weis M, Naumann F. Detecting Duplicate Objects in XML Documents[C]//Proceedings of the 2004 International Workshop on Information Quality in Information Systems. Paris, France: [s. n.], 2004: 10-19.
2Tejada S, Knoblock C A, Minton S. Learning Object Identification Rules for Information Integration[D]. CaliFornia, USA: University of Southern California, 2002.
3Breiman I. Bagging Predictors Machine Learning[J]. 1996, 24(2): 123-140.
4Sung S Y, Li Zhao, Sun Peng. A Fast Filtering Scheme for Large Database Cleansing[C]//Proceedings of the 11th International Conference on Information and Knowledge Management. Virginia, USA: [s. n.], 2002: 76-83.
5Ukkonen E. Approximate String-matching with Q-grams and Maximal Matches[J]. Theore-tical Computer Science, 1992, 92(1): 191-212.

同被引文献7

1JLY Koh,ML Lee,W Hsu,et al.Correlation-based detection of attribute outliers[C].12th International Conference on Database Systems for Advanced Applications,2007.
2Melanie Weis,Felix Nanmann.DogmatiX tracks down duplicates in XML[C].ACM SIGMOD,2005.
3孙云,李舟军,陈火旺.孤立点检测算法及其在数据流挖掘中的可用性[J].计算机科学,2007,34(10):200-203. 被引量：15
4孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1072
5韩京宇,徐立臻,董逸生.数据质量研究综述[J].计算机科学,2008,35(2):1-5. 被引量：102
6杨厚群,何中市,雷景生.基于划分的XML文档聚类研究[J].计算机科学,2008,35(3):183-185. 被引量：4
7刘波,杨路明,雷刚跃,邓云龙.面向XML数据库的智能数据清洗策略[J].计算机工程,2008,34(16):16-18. 被引量：4

引证文献1

1刘铮,刘伟.XML数据中孤立点检测方法研究[J].计算机工程与设计,2010,31(18):4001-4004. 被引量：3

二级引证文献3

1冯志强,李磊,邓卫梅,杜伟,李川.基于PSO-PNN的燃煤电站SCR脱硝系统数据预处理算法研究[J].电工技术,2023(5):186-190.
2张暄博,张雨蓉,杜伟,赵洪岗.燃煤电站热工过程异常数据处理方法研究[J].科技与创新,2023(10):116-119.
3吴铮,张悦,董泽,李玲.基于多模型融合的热工过程异常值处理方法[J].计算机仿真,2024,41(2):108-114.

1王果,徐仁佐.结合哈希过滤的一种改进多连接查询优化算法[J].计算机工程,2004,30(7):57-59. 被引量：7
2倪洁琼,吴耿锋,郑宇.基于关系权重的文本表示法[J].计算机应用与软件,2009,26(5):68-69.
3王爽,王国仁.面向不确定感知数据的频繁项查询算法[J].计算机学报,2013,36(3):571-581. 被引量：8
4林馨,任仲晟.一种新的XML信息检索索引[J].福建电脑,2008,24(9):118-119.
5黄云,覃遵跃,卓月明.基于时空数据的社会关系发现[J].计算机应用研究,2011,28(8):3004-3006. 被引量：1
6苏志同,李晋宏,林满山.基于差别矩阵的属性约简算法及其应用[J].计算机工程与应用,2010,46(7):221-222. 被引量：4
7冯锋,吴杰.基于Bloom filter的RFID中间件数据过滤算法研究[J].计算机应用研究,2015,32(5):1441-1444. 被引量：7
8何海涛,秦燕芬,曹凤翔.分类算法中基于差别矩阵的属性约简方法[J].燕山大学学报,2011,35(4):366-369.
9高锦标.一种改进的区分矩阵属性约简算法及应用[J].电脑知识与技术（过刊）,2009,15(3X):1876-1877. 被引量：1
10邹亮.基于关系约束的XML元素近似查询研究[J].科技广场,2010(1):26-28. 被引量：1

计算机工程

2008年第15期

浏览历史

内容加载中请稍等...

一种有效的XML数据清洗方法被引量：1

参考文献5

同被引文献7

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种有效的XML数据清洗方法 被引量：1

参考文献5

同被引文献7

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种有效的XML数据清洗方法被引量：1