XML文档的聚类研究

Clustering Research on XML Document

下载PDF

导出

摘要随着互联网的迅速发展,XML已经成为互联网中最常用的数据交换与存储语言,如何从大量的XML文档中提取有价值的信息是目前的研究热点之一.本文提出了一种基于SET/BAG模型的改进的相似度计算方法.该方法将XML文档的每个节点转换成一个对象(由对象名、父对象、属性集合以及该对象相对于其父对象的权重组成),能较完整地表达XML文档的结构信息,并且通过调整重复节点的权重来降低其在相似度计算中的影响.在真实数据集与人工数据集上分别进行实验,仿真实验结果表明,本文提出的基于SET/BAG模型下改进的相似度计算方法能得到很好的聚类结果. With the rapid development of Internet,XML has become the most commonly used language for the Internet data exchange and storage. How to extract valuable information from a large number of XML document is one of the hottest research topics currently. This paper proposes a model based on the SET / BAG improved similarity calculation method,which converts each node of the XML document to an object（ the object name,object,attribute set,and the weight of the object relative to the parent object） and can fully express the structure of an XML document information,by adjusting the repeated node weights to reduce its influence in similarity calculation.Based on real data sets and artificial datasets experiments respectively,the simulation experimental results show that the proposed method in this paper based on the SET / BAG model improved similarity calculation can get good clustering results.

作者尹路修

机构地区湖南师范大学数学与计算机科学学院

出处《湖南师范大学自然科学学报》 CAS 北大核心 2015年第5期91-94,共4页 Journal of Natural Science of Hunan Normal University

关键词 XML 文档聚类相似度计算 XML document clustering similarity computation

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1ALSAYED A, MARCO M, RICHI N, et al. XML data clustering:an overview[J]. ACM Comput Surv, 2011,43(4) :25.
2ANAND R, JEFFREY D U. Mining of Massive Datasets[ M ]. Cambridge: Cambridge University Press, 2011.
3周水庚,周傲英,曹晶,胡运发.一种基于密度的快速聚类算法[J].计算机研究与发展,2000,37(11):1287-1292. 被引量：89
4BERTINO E, GUERRINI G, MESITI M. Measuring the structural similarity among XML documents and DTDS[ EB/CD]. Tech- nical Report DISI-TR-02-02, Department of Computer Science, University of Genova, 2002.
5FLESCA S, MANEO G, MASCIARI E, et al. Detecting structural similarities between XML documents[ C]//Proceedings of the 5th International Workshop on the Web and Databases, Madison, Wisconsin, 2002:55-60.
6SALTON G, WONG A, YANG C S. A vector space model for automatic indexing[J]. Comm ACM, 1975,18(11) :613-620.
7LEE J W, LEE K, KIM W. Preparations for semantics-based XML mining[ C ]//Proceedings of the 2001 IEEE International Conference on Data Mining, San Jose, 2001:345-352.
8ANDREA T, SERGIO G. Semantic clustering of XML documents[ J ]. ACM Trans Inform Syst, 2010,28 (1) :1-56.

二级参考文献4

1Zhang W，Proc 23rd VL DB Conf，1997年，186页
2Chen M S，IEEE Trans Knowledge Data Engineering，1996年，8卷，6期，866页
3Zhang T，Proc ACM SIGMOD Int Conf on Management of Data，1996年，73页
4Ng R T，Proc 20th VLDB Conf，1994年，144页

共引文献88

1梁敏君,倪志伟,倪丽萍,杨葛钟啸.基于网格与分形维数的聚类算法[J].计算机应用,2009,29(3):830-832. 被引量：4
2周文勇.改进的K-均值聚类算法[J].光盘技术,2007(2):54-56. 被引量：6
3王海,王忠民.一种基于密度和网格的聚类算法在KDD中的应用[J].计算机工程与应用,2004,40(24):180-182. 被引量：3
4周永权,焦李成.高属性维稀疏数据聚类回归逻辑神经网络模型及学习算法[J].电子学报,2004,32(8):1342-1345. 被引量：3
5林小红,蒋伟进.基于RS近似算法的医疗诊断知识挖掘[J].海军工程大学学报,2004,16(5):48-51.
6薛永生,翁伟,文娟,王劲波,张宇.LSNCCP——一种基于最大不相含核心点集的聚类算法[J].计算机研究与发展,2004,41(11):1930-1935. 被引量：2
7郭伟,唐晓君,刘万军.一种基于划分的聚类算法分析与改进[J].辽宁工程技术大学学报（自然科学版）,2004,23(6):826-828. 被引量：4
8万志华,欧阳为民,张平庸.一种基于划分的动态聚类算法[J].计算机工程与设计,2005,26(1):177-179. 被引量：16
9郭俊,樊彦国.一种改进的CURE聚类算法[J].内蒙古石油化工,2005,31(4):14-17.
10石陆魁,何丕廉.一种基于密度的高效聚类算法[J].计算机应用,2005,25(8):1824-1826. 被引量：21

1曹昌勇.基于CAN和Force Control V7.0粮库数字化监控系统设计[J].聊城大学学报（自然科学版）,2013,26(4):103-106.
2周健雯,李聪聪,熊赟,朱扬勇.一种基于R*树的自相似性连接算法[J].计算机应用与软件,2014,31(8):50-53. 被引量：1
3朱辉,梁英.一种基于多信道的接收节点优先的MAC算法[J].沈阳理工大学学报,2013,32(6):23-27.
4何小敏,熊庆宇,石为人,高鹏.基于网格划分的递增式定位算法[J].计算机应用研究,2012,29(2):687-689. 被引量：1
5张永,李泉霖,刘博.基于智能分组策略的XML关键字查询算法[J].计算机科学,2016,43(10):229-233.
6李晶皎,孙丽梅,王骄.提高会话推荐多样性的SRL推荐系统模型[J].东北大学学报（自然科学版）,2013,34(5):650-653. 被引量：1
7赵志坤,李义杰.对Bordat建格算法的一个改进[J].中国科技信息,2007(4):275-278. 被引量：1
8赵晋泉,江晓东,张伯明.潮流计算中PV-PQ节点转换逻辑的研究[J].中国电机工程学报,2005,25(1):54-59. 被引量：45
9叶恒舟,罗晓娟,牛秦洲.基于归约图的Web服务自动组合[J].桂林工学院学报,2009,29(3):395-401. 被引量：2
10张俐,李晶皎,胡明涵,姚天顺.中文WordNet的研究及实现[J].东北大学学报（自然科学版）,2003,24(4):327-329. 被引量：20

湖南师范大学自然科学学报

2015年第5期

浏览历史

内容加载中请稍等...

XML文档的聚类研究

参考文献8

二级参考文献4

共引文献88

相关作者

相关机构

相关主题

浏览历史