XML文档自动聚类研究被引量：16

Research on XML Documents Cluster

下载PDF

导出

摘要本文在文本聚类的基础上对XML文档自动聚类进行了研究，对划分聚类法和层次聚类法进行了改进，使之适合于XML文档聚类；给出了元素比较法、边集比较法和编辑距离法等三种计算文档间相似度的方法，并利用实际数据进行了测试和分析。 On the basis of text cluster, the author makes an exploratory research on XML documents cluster, through the improvement on partition cluster and layer cluster, makes them can use on XML documents cluster. Then, the author discusses some method about XML documents similarity calculation.

作者潘有能

机构地区浙江大学信息资源管理系

出处《情报学报》 CSSCI 北大核心 2006年第2期215-220,共6页 Journal of the China Society for Scientific and Technical Information

基金本文为浙江大学“曙光”青年项目“基于XML的Web日志挖掘研究”（No：205000-362221）研究成果.

关键词数据挖掘文本聚类 XML data mining, text cluster, XML.

分类号 TP311.132 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献13

1Richi Nayak,Rebecca Witt & Anton Tonev.Data Mining and Xml Documents.Proceedings of the 2002 International Conference on Internet Computing,2002
2Andrew Nierman,H.V.Jagadish.Evaluating Structural Similarity in XML Documents.WebDB 2002
3Elisa Bertino,Giovanna Guerrini,Marco Mesiti,Luigi Tosetto.Evolving a Set of DTDs According to a Dynamic Set of XML Documents.EDBT Workshops,2002
4Elisa Bertino,Giovanna Guerrini,Marco Mesiti.Matching an XML Document against a Set of DTDs.ISMIS,2002
5Kaizhong Zhang,Rick Statman,Dennis Shasha.Simple Fast Algorithms for the Editing Distance Between Trees and Related Problems.SIAM Journal on Computing,1989,18(6):1245～1262
6Yuan Wang,David J.De Witt,Jin-Yi Cai.X-Diff:An Effective Change Detection Algorithm for XML Documents.In the International Conference On Data Engineering (ICDE),2003,519～530
7Chawathe,H.Garcia-Molina.Meaningful Change Detection in Structured Data.In Proceeding of the ACM SIGMOD International Conference on Management of Data,1996,26～37
8S.Chawathe,A.Rajaman,H.Garcia-Molina,and J.Widom.Change Detection in Hierarchically Structured Information.In the Conference of Special Interest Group on Management of Data (SIGMOD),1996,493～504
9郑仕辉,周傲英,张龙.XML文档的相似测度和结构索引研究[J].计算机学报,2003,26(9):1116-1122. 被引量：28
10潘有能,邓三鸿.基于XML和关联规则的Web挖掘研究[J].现代图书情报技术,2004(7):30-34. 被引量：9

二级参考文献40

1徐振航,刘莉芹.XML与面向Web的数据挖掘技术[J].软件世界,2000(10):120-122. 被引量：16
2..http://www.yahoo.com,2001.
3Chakrabarti S, Dom B, Gibson D, Kleinberg J, Raghavan P, Rajagopalan S. Automatic resource compilation by analyzing hyperlink structure and associated text. In: Thistlewaite P, et al. eds. Proceedings of the 7th ACM-WWW International Conference. Brisbane:ACM Press, 1998. 65～74.
4Chakrabarti S. Integrating the document object model with hyperlinks for Enhanced topic distillation and information extraction. In:Vincent Y S, et al. eds. Proceedings of the 10th ACM-WWW International Conference. Hong Kong: ACM Press, 2001.211～220.
5Borodin A, Roberts G, Rosenthal J, Tsaparas P. Finding authorities and hubs from link structures on the World Wide Web. In:Vincent Y S, et al. eds. Proceedings of the 10th ACM-WWW International Conference. Hong Kong: ACM Press, 2001. 415～429.
6Davison B, Gerasoulis A, Kleisouris K, Lu Y, Seo H, Wang W, Wu B. DiscoWeb: Applying link analysis to web search (extended abstract). In: Vezza A, Maloney M, Cailliau R, eds. Proceedings of the 8th ACM-WWW International Conference. Toronto: ACM Press, 1999. 148～149.
7Golub GH, Van Loan CF. Matrix Computations. London: Johns Hopkins University Press, 1989. 40～45.
8Bharat K, Henzinger M. Improved algorithms for topic distillation in a hyperlinked environment. In: Voorhees E, Kirsch S, eds.Proceedings of the 21st ACMSIGIR International Conference on Research and Development in Information Retrieval. Melbourne:ACM Press, 1998. 104～111.
9Brin S, Page L. The anatomy of a large-scale hypertextual Web search engine. In: Thistlewaite P, et al. eds. Proceedings of the 7th ACM-WWW International Conference. Brisbane: ACM Press, 1998. 107～117.
10Kleinberg J. Authoritative sources in a hyperlinked environment. In: Tarjan RE, Baecker T, eds. Proceedings of the 9th ACM-SIAM Symposium on Discrete Algorithms. New Orleans: ACM Press, 1997. 668～677.

共引文献65

1赵嫣,马军,李森.一种计算结构化文档相关度的方法[J].计算机研究与发展,2007,44(z2):350-355.
2傅向华,马兆丰,何明,冯博琴.一种个性化的主题提取和层次发现算法[J].西安交通大学学报,2005,39(2):119-122. 被引量：5
3邱均平,张洋.网络信息计量学综述[J].高校图书馆工作,2005,25(1):1-12. 被引量：44
4卫瑜,曾凡平,蒋凡.基于相似度分析的分布式拒绝服务攻击检测系统[J].计算机辅助工程,2005,14(2):63-67.
5傅向华,冯博琴,马兆丰,何明.基于查询扩展的Web链接主题提取算法[J].小型微型计算机系统,2005,26(11):1951-1954. 被引量：1
6叶庆卫,汪同庆.基于二叉树相似性检测的变形文字识别研究[J].计算机工程与应用,2005,41(31):52-54. 被引量：1
7陈德华,韩忠明,乐嘉锦.基于相似性分析的软件构件聚类研究[J].小型微型计算机系统,2005,26(12):2207-2211. 被引量：2
8李楠,孙济庆.支持语义检索的知识检索模型[J].情报学报,2005,24(6):708-712. 被引量：12
9闫利国,贺飞.XM L文档结构相似测度研究[J].计算机应用研究,2006,23(3):44-46. 被引量：4
10潘有能.基于XML的Web日志挖掘研究[J].现代图书情报技术,2006(5):62-64. 被引量：2

同被引文献242

1何昕,谢志鹏.基于简单树匹配算法的Web页面结构相似性度量[J].计算机研究与发展,2007,44(z3):1-6. 被引量：15
2常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
3林春燕,朱东华.科学文献的模糊聚类算法[J].计算机应用,2004,24(11):66-67. 被引量：9
4李文兰,杨祖国.从关键词的变化看中国图书馆学研究主题的发展[J].图书情报工作,2004,48(12):115-118. 被引量：44
5胡清华,谢宗霞,于达仁.基于粗糙集加权的文本分类方法研究[J].情报学报,2005,24(1):59-63. 被引量：11
6金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
7夏咏梅.基于文本挖掘的分类与聚类技术[J].情报探索,2005(3):65-67. 被引量：9
8陈琼,苏文健.基于网页结构树的Web信息抽取方法[J].计算机工程,2005,31(20):54-55. 被引量：24
9凌云,刘军,王勋.多层次web文本分类[J].情报学报,2005,24(6):684-689. 被引量：12
10李楠,孙济庆.支持语义检索的知识检索模型[J].情报学报,2005,24(6):708-712. 被引量：12

引证文献16

1潘有能,丁楠.图书馆学学科知识地图的构建[J].大学图书馆学报,2007,25(4):10-13. 被引量：21
2宋明秋,张瑞雪.基于HTML树的网页结构相似度研究[J].情报学报,2011,30(2):160-165. 被引量：2
3孟海涛,陈笑蓉.基于模糊相似度的科技文献软聚类算法[J].贵州大学学报（自然科学版）,2007,24(2):175-178. 被引量：9
4潘有能,丁楠.基于标记树的XML文档自动分类研究[J].情报学报,2007,26(3):350-355. 被引量：5
5杨厚群,何中市,雷景生.基于划分的XML文档聚类研究[J].计算机科学,2008,35(3):183-185. 被引量：4
6苗建新,吉根林.GML文档结构聚类算法Clu-GML[J].南京大学学报（自然科学版）,2008,44(2):188-194. 被引量：8
7张杰,卫金茂,刘丹.基于BFS树的XML文档图结构相似性计算[J].计算机工程与设计,2008,29(17):4603-4605. 被引量：3
8李树青.基于加权XML模型的个性化产品推荐方法[J].现代图书情报技术,2009(4):64-69. 被引量：2
9杜新林,刘丹,董妍.XML文档相似性的常用方法比较[J].长春大学学报,2009,19(6):30-31. 被引量：3
10冯秀珍,陈旎.基于最大频繁路径的元数据聚类方法[J].计算机工程,2010,36(21):40-42. 被引量：1

二级引证文献81

1沈岚岚.基于OpenXML的文档格式检查技术的研究[J].电子技术（上海）,2021,50(4):44-45. 被引量：2
2黄培红.面向知觉形式化特征的自然语言理解十年研究进展[J].智能安全,2022,1(2):90-100.
3李秀峰,刘利亚.图书馆知识仓库研究综述[J].农业网络信息,2008(8):50-54. 被引量：3
4李众,梁志剑.一种改进的文本聚类算法[J].陕西科技大学学报（自然科学版）,2008,26(6):163-166.
5秦长江,侯汉清.知识图谱——信息管理与知识管理的新领域[J].大学图书馆学报,2009,27(1):30-37. 被引量：289
6张丽,吉根林.一种基于线面包含关系的GML空间聚类算法[J].山东大学学报（工学版）,2009,39(2):21-25. 被引量：3
7魏建香,苏新宁.基于关键词和摘要相关度的文献聚类研究[J].情报学报,2009,28(2):220-224. 被引量：4
8魏建香,刘怀,苏新宁.基于遗传算法的文档聚类算法的设计与仿真(英文)[J].南京大学学报（自然科学版）,2009,45(3):432-438. 被引量：4
9陈新元.近年来我国分类检索语言研究热点综述[J].科技情报开发与经济,2009,19(20):133-136. 被引量：1
10沈建通,姚乐野.多元统计与社会网络分析法在知识图谱应用的实证研究[J].情报杂志,2009,28(8):33-36. 被引量：23

1孙霞,程宏斌.基于模式的XML文档相似度算法[J].计算机工程,2010,36(21):54-56. 被引量：2
2童先群,周忠眉.基于层次聚类法的Entropy-KNN算法[J].漳州师范学院学报（自然科学版）,2012,25(1):43-47. 被引量：2
3张杰,张伟.求解云环境下的数据初始配置[J].贵州师范大学学报（自然科学版）,2013,31(1):88-93.
4冯少荣,潘炜炜,林子雨.基于改进k-medoids算法的XML文档聚类[J].计算机工程,2015,41(9):56-62. 被引量：4
5曹春萍,崔海船.基于LSA和结构特性的微博话题检测[J].计算机应用研究,2015,32(9):2720-2723. 被引量：3
6杨厚群,何中市,雷景生.基于划分的XML文档聚类研究[J].计算机科学,2008,35(3):183-185. 被引量：4
7孙霞,程宏斌.基于加权层次结构的XML文档相似度算法[J].武汉理工大学学报,2009,31(18):76-79. 被引量：1
8王毅,陈庆新,毛宁.基于本体的改模方案聚类研究[J].机械科学与技术,2015,34(4):570-576.
9傅珊珊,吴扬扬.基于频繁结构的XML文档聚类[J].计算机工程与应用,2008,44(9):135-138. 被引量：1
10白代萍,李艳芹,丁静,杨勇,樊跃.层次聚类法在逆向工程中的应用研究[J].图学学报,2014,35(3):402-406.

情报学报

2006年第2期

浏览历史

内容加载中请稍等...

XML文档自动聚类研究被引量：16

参考文献13

二级参考文献40

共引文献65

同被引文献242

引证文献16

二级引证文献81

相关作者

相关机构

相关主题

浏览历史

XML文档自动聚类研究 被引量：16

参考文献13

二级参考文献40

共引文献65

同被引文献242

引证文献16

二级引证文献81

相关作者

相关机构

相关主题

浏览历史

XML文档自动聚类研究被引量：16