一种结构与内容相结合的XML文档聚类方法被引量：4

A Clustering Method Based on Structure and Content for XML Documents

下载PDF

导出

摘要 XML（可扩展标记语言）正在成为Web数据交换的标准格式。随着XML格式的半结构数据的大量出现，如何处理和管理XML文档已经成为了一个研究热点。XML文档聚类作为XML数据处理的重要课题，是指将具有类似特征的XML文档聚集成簇。现有的大部分XML文档聚类是基于文档结构特征的。本文提出了一个新的结构与内容相结合的XML文档聚类方法。首先从文档中抽取构件向量，并把文档转换为向量化的表示。然后，在文档相似度计算的基础上，引入一个层次聚类方法对XML文档进行聚类。在DBLPXML记录集上进行的实验表明该方法具有可行性并且性能明显优于已有方法。 The XML （eXtensible Markup Language ） is becoming the standard format for web data exchange. With the widespread diffusion of semistructured data in XML format, processing and management of XML documents have already become a popular research issue. To be an important subject in XML data processing research, the clustering of XML documents refers to detect groups of XML documents that have similar features. Most existing methods on XML documents clustering are based on structural features. This paper proposes a new method for clustering XML documents by making use of the structural and content information of the documents. In the method, the first step is to extract component vectors from documents, and express the documents as vectors. Then a hierarchical clustering algorithm is introduced for clustering XML documents based on a document similarity function. The experiment results on DBLP XML Records show that this method is feasible and evidently better than existing methods.

作者谌志群王小华王荣波

机构地区杭州电子科技大学计算机应用技术研究所

出处《情报学报》 CSSCI 北大核心 2009年第5期693-699,共7页 Journal of the China Society for Scientific and Technical Information

关键词 XML 文档聚类结构内容层次聚类 XML, documents clustering, structure, content, hierarchical clustering

分类号 TP311.132 [自动化与计算机技术—计算机软件与理论] TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

同被引文献41

1潘有能.XML文档自动聚类研究[J].情报学报,2006,25(2):215-220. 被引量：16
2孔令波,唐世渭,杨冬青,王腾蛟,高军.XML数据的查询技术[J].软件学报,2007,18(6):1400-1418. 被引量：72
3Han J,Kamber M.Data Mining: Concepts and Techniques[M].San Francisco,USA: Morgan Kaufmann Publishers,2006.
4Cohn D,Hofmann T.The Missing Link——A Probabilistic Model of Document Content and Hypertext Connectivity[C]//Proc.of Advances in Neural Information Processing Systems.Cambridge,USA: MIT Press,2001: 430-436.
5Weiss R,Velez B,Sheldon M,et al.Hypursuit: A Hierarchical Network Search Engine That Exploits Content Link Hypertext Clustering[C]//Proc.of the 7th ACM Conference on Hypertext.New York,USA: ACM Press,1996: 180-193.
6Modha D,Spangler W.Clustering Hypertext with Applications to Web Searching[C]//Proc.of the 11th ACM Conference on Hypertext and Hypermedia.San Antonio,USA: ACM Press,2000: 123-132.
7GB／T7714-2005文后参考文献著录规则[S]．北京：中国标准出版社，2005
8Lee J W, Lee K, Kim W. Preparations for Semantics-Based XML Mining [ C ]//Proceedings of the 2001 IEEE international conference on data mining, San Jose, Cali- fornia, USA, 2001.
9Doucet A. Naive Clustering of a large XML Document Collection [ C ]//Proceedings of the 1 st Annual Workshopof the Initiative for the Evaluation of XML retrieval (INEX) , Dagstuhl, Germany,2002.
10Lian W,Cheung D W, Mamoulis N,et al. An Efficient and Scalable Algorithm for Clustering XML Documents by Structure[ J]. IEEE Transactions on Knowledge and Data Engineering ,2004,16( 1 ) :82-96.

引证文献4

1高学东,吴玲玉,武森,谷淑娟.基于属性与对象关系信息的综合差异度计算[J].计算机工程,2011,37(22):35-38. 被引量：2
2潘有能,滕海明.基于语义标记树的XML文档聚类研究[J].情报学报,2012,31(5):508-514. 被引量：5
3钟敏娟.基于内容与结构语义相融合的XML检索结果聚类[J].情报学报,2012,31(5):515-525. 被引量：5
4苑隆寅,刘枚,王哲.情报学报文后参考文献著录特点研究[J].经济研究导刊,2013(21):221-222. 被引量：1

二级引证文献13

1潘有能,刘朝霞.基于WordNet的关联数据本体映射研究[J].情报杂志,2013,32(2):99-102. 被引量：7
2胡昌平,严炜炜.面向科学研究的个人数字图书馆服务融合[J].中国图书馆学报,2013,39(4):93-101. 被引量：8
3钟敏娟,万常选,刘德喜,廖述梅.基于检索结果聚类的XML伪相关文档查找[J].计算机科学,2013,40(10):172-177. 被引量：1
4钟敏娟,万常选,刘德喜,廖述梅,焦贤沛.基于较高质量扩展源和局部词共现模型的XML查询词扩展[J].计算机科学,2014,41(4):200-204.
5傅腾,高建华.Web工程中基于不变性的元数据检查和测试[J].计算机科学,2014,41(8):224-228.
6贾丽梅,郑志蕴,李钝,王振飞.基于动态权值的关联数据语义相似度算法研究[J].计算机科学,2014,41(8):263-266. 被引量：8
7潘有能,刘朝霞.本体映射技术在关联数据中的应用研究[J].情报科学,2015,33(1):54-56. 被引量：12
8李雪琴,李聪,马丽,梁昌勇.树型网络相似性度量方法研究：一个分类视角[J].情报学报,2014,33(11):1146-1159.
9龙鹏飞,石奇.XML文档聚类中基于语义的特征词权重计算方法[J].长沙理工大学学报（自然科学版）,2015,12(2):72-77.
10张力生,洪小云,雷大江.基于路径特征的XML文档结构相似性度量[J].计算机应用与软件,2015,32(7):39-42. 被引量：4

1谌志群.XML文档相似度计算方法研究[J].情报学报,2009,28(1):48-57. 被引量：3
2张文东,李伟.基于结构与内容的Web主要信息提取方法研究[J].计算机工程与设计,2008,29(24):6210-6212.
3赵媛心,吴晓蕊,杨飞,窦小明,赵翔,赵耀.支持多信息源的Web服务标签挖掘系统[J].网络新媒体技术,2015,4(2):24-29.
4赵志强.CMM/CMMI作用、实质、结构与内容[J].天津科技,2008,35(3):49-51. 被引量：1
5陈兵,万晖.基于XML的Web数据交换[J].计算机工程,2002,28(2):112-114. 被引量：13
6吴铁洲.XML文档中数据的语义描述问题研究[J].舰船电子工程,2005,25(2):66-67.
7朱鸿锭.密封件网络管理系统[J].农业网络信息,2004(8):21-23.
8李剑波,庞宏冰,冯学民.基于XML的Web数据交换服务平台的设计与实现[J].北华大学学报（自然科学版）,2003,4(3):273-276. 被引量：15
9蒋悦,吴壮志,赵旭林,怀进鹏.基于文档树的XML文件转换[J].计算机工程,2003,29(21):97-99. 被引量：2
10李福运,夏冬梅.宏程序在车削加工中的应用于研究[J].现代制造技术与装备,2017,53(2):5-7. 被引量：1

情报学报

2009年第5期

浏览历史

内容加载中请稍等...

一种结构与内容相结合的XML文档聚类方法被引量：4

同被引文献41

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一种结构与内容相结合的XML文档聚类方法 被引量：4

同被引文献41

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一种结构与内容相结合的XML文档聚类方法被引量：4