基于XML文档相似性的构件聚类分析被引量：7

Analysis of clustering components based on XML documents similarity

下载PDF

导出

摘要构件聚类时,提出了一种计算基于XML描述的构件间相似度的递归算法,能有效度量构件XML描述文档包含的结构和语义信息。构造文档相似矩阵,利用遗传算法将高维样本映射到二维平面上,使用k-means算法聚类,获得全局最优的构件聚类。最后,在构件库测试模型上进行实验,实验结果表明,基于XML相似度的构件聚类算法在构件查询实践中具有可行性和有效性。 During components clustering, a recursive approach is presented to measure the similarity between two components described by XML document. It can effectively measure the similarity of XML documents contains the description of structural and semantic information. Similar matrix of XML documents, genetic algorithm mapped high-dimensional to two-dimensional, k-means clustering algorithm, access to the global optimal clustering components. The results of experiment on a testing system of component repository confirm the feasibility and efficiency of clustering components based on XML documents similarity in component retrieval.

作者龚安刘华山牛秋丽罗琳

机构地区中国石油大学(华东)计算机与通信工程学院

出处《计算机工程与设计》 CSCD 北大核心 2009年第2期507-510,共4页 Computer Engineering and Design

关键词 XML 构件语义相似度遗传算法聚类 XML component semantic similarity genetic algorithm cluster

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1王渊峰,薛云皎,张涌,朱三元,钱乐秋.刻面分类构件的匹配模型[J].软件学报,2003,14(3):401-408. 被引量：47
2徐如志,钱乐秋,程建平,王渊峰,朱三元.基于XML的软件构件查询匹配算法研究[J].软件学报,2003,14(7):1195-1202. 被引量：44
3Heather Williamson.XML:The complete reference[M].北京:机械工业出版社,2002.
4Pandya A, Bhattacharyya P. Text similarity measurement using concept representation of texts[C].Proceedings of First International Conference on Pattern Recognition and Machine Intelligence.Berlin,Germany:Springer,2005.
5张丙奇,白硕,赵章界.XML数据相似度研究[J].计算机工程,2005,31(11):25-27. 被引量：6
6Han Jiawei,Micheline Kamber.数据挖掘与技术[M].范明,孟小峰,译.北京:机械工业出版社,2001.

二级参考文献19

1Ivar J. Software reuse: Architecture, process and organization for business success. Reading: Addison-Wesley Publishing Company,1997.4~15.
2Mill H, Mili A. Reuse based software engineering. New York: John Wiley & Sons Inc., 2002. 444-459.
3Frakes WB, Pole TP. An empirical study of representation methods for reusable software components. IEEE Transactions on Software Engineering, 1994,120(8):617~630.
4Gibb F, McCartan C, O'Donnell R, Sweeney N, Leon R. The integration of information retrieval techniques within a software reuse environment. Journal of Information Science, 2000,26(4):520--539.
5Torshen S. ApproXQL: Design and implementation of an approximate pattern matching language for XML. Technical Report, B 01-02, Freie University at Berlin, 2001.
6Thorsten R. A new measure of the distance between ordered trees and its applications. Research Report, 85166, Department of Computer Science, University of Bonn, 1997.
7Torshen S, Naumann F. Approximate tree embedding for querying XML data. In: Proceedings of ACM SIGIR Workshop on XML and Information Retrieval. Athens, 2000.
8Zhang KZ. On the editing distance between unordered labeled trees. Information Processing Letters, 1992,42(3):133~139.
9Wang YF. Research on retrieving reusable components classified in faceted scheme [Ph.D. Thesis]. Shanghai: Fudan University,2002 (in Chinese with English abstract).
10Chang JC, Li KQ, Ouo LF, Mei H, Yang FQ. Representing and retrieving reusable software components in JB (Jadebird) system.Electronic Journal, 2000,28(8):20-24 (in Chinese with English abstract).

共引文献82

1雷庆,吴扬扬.识别和抽取XM L文档中的关系信息及其出现模式[J].清华大学学报（自然科学版）,2005,45(S1):1757-1761. 被引量：3
2万云强,陈文宇,张艳.嵌入式构件中的自适应机制与策略[J].计算机应用研究,2009,26(3):914-916.
3胡志华,卢险峰.基于XML技术的多功能搜索引擎的框架研究[J].微计算机应用,2004,25(5):525-528. 被引量：1
4贾晓辉,陈德华,严梅,乐嘉锦,丁晓东.基于刻面描述的构件查询匹配模型及算法研究[J].计算机研究与发展,2004,41(10):1634-1638. 被引量：28
5李孝明,曹万华.一种软件构件的分类与检索的实现技术[J].计算机与数字工程,2004,32(5):25-28. 被引量：5
6欧阳柳波,李学勇,杨贯中,李国徽.基于近似匹配模型的XML元数据检索[J].计算机应用,2005,25(4):820-823. 被引量：9
7胡建强,邹鹏,王怀民,周斌.Web服务描述语言QWSDL和服务匹配模型研究[J].计算机学报,2005,28(4):505-513. 被引量：108
8李孝明,曹万华.舰载作战指挥系统软件构件库技术研究(续二):功能设计[J].舰船电子工程,2005,25(2):33-36. 被引量：2
9孟闻天,张维石,史金余,张秀国.一种基于刻面分类描述的软件构件查询方法[J].计算机工程与应用,2005,41(12):61-64. 被引量：9
10孙军梅.遗传算法在基于XML的数据查询中的应用[J].计算机工程,2005,31(12):183-184. 被引量：2

同被引文献68

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2陈和平,高丽,杨玲贤.基于面向值的映像方法在XML数据存储中的应用[J].武汉科技大学学报,2005,28(2):197-200. 被引量：2
3张丙奇,白硕,赵章界.XML数据相似度研究[J].计算机工程,2005,31(11):25-27. 被引量：6
4冯铁,李文锦,张家晨,柴胜.面向Java语言的设计模式抽取方法的研究[J].计算机工程与应用,2005,41(25):28-33. 被引量：8
5陈德华,韩忠明,乐嘉锦.基于相似性分析的软件构件聚类研究[J].小型微型计算机系统,2005,26(12):2207-2211. 被引量：2
6李媚秋,戴瑜兴.XML技术在电能质量数据共享中的应用[J].微计算机信息,2006,22(03S):177-179. 被引量：7
7赵念强,鞠时光.网格计算及网格体系结构研究综述[J].计算机工程与设计,2006,27(5):728-730. 被引量：25
8李媛,耿桦,张甍,潘金贵.基于网页结构挖掘的信息提取[J].计算机科学,2006,33(3):191-193. 被引量：2
9潘有能.XML文档自动聚类研究[J].情报学报,2006,25(2):215-220. 被引量：16
10肖厚新,唐常杰,张婷,金朋纬,乔少杰.BTCS:基于二叉遍历的XML文档编码模式[J].四川大学学报（自然科学版）,2006,43(3):532-537. 被引量：7

引证文献7

1刘继红,吴军华.Web逆向工程中交互设计模式的抽取方法改进[J].计算机工程与设计,2010,31(5):932-935. 被引量：2
2肖奔,邓爱萍.基于XML的程序代码匹配算法研究[J].微计算机信息,2010,26(36):264-265.
3潘有能,滕海明.基于语义标记树的XML文档聚类研究[J].情报学报,2012,31(5):508-514. 被引量：5
4张雷,陈立潮,潘理虎,闫慧敏,张英俊.构件标识潜在语义分析与模糊聚类方法研究[J].计算机工程与设计,2012,33(12):4557-4560. 被引量：1
5张跟鹏.XML中基于聚类的相似度改进算法[J].计算机与数字工程,2015,43(12):2141-2144.
6徐沛娟,齐福慧,李卓,王利民.基于编辑图的XML文档相似性研究[J].计算机工程与应用,2016,52(2):81-85.
7刘鹏,滕家雨,丁恩杰,孟磊.基于Spark的大规模文本k-means并行聚类算法[J].中文信息学报,2017,31(4):145-153. 被引量：14

二级引证文献22

1潘有能,刘朝霞.基于WordNet的关联数据本体映射研究[J].情报杂志,2013,32(2):99-102. 被引量：7
2刘淑华.J2EE项目中一种新的错误处理方法[J].计算机应用与软件,2013,30(7):143-146. 被引量：7
3张语涵,刘淑华,周永鑫.Java Web应用中错误和异常处理方法研究[J].现代计算机（中旬刊）,2013(8):61-65. 被引量：6
4傅腾,高建华.Web工程中基于不变性的元数据检查和测试[J].计算机科学,2014,41(8):224-228.
5潘有能,刘朝霞.本体映射技术在关联数据中的应用研究[J].情报科学,2015,33(1):54-56. 被引量：12
6李雪琴,李聪,马丽,梁昌勇.树型网络相似性度量方法研究：一个分类视角[J].情报学报,2014,33(11):1146-1159.
7张力生,洪小云,雷大江.基于路径特征的XML文档结构相似性度量[J].计算机应用与软件,2015,32(7):39-42. 被引量：4
8黄可望,李雪,朱嘉钢.包含协议和语义的构件一致性验证方法[J].计算机应用研究,2017,34(7):2038-2044. 被引量：1
9张利娟,仇建伟,杜登崇,王鑫.基于Spark和PSO算法的军事物流配送路径优化问题研究[J].计算机与现代化,2018(11):65-68. 被引量：3
10LIU Peng,ZHAO Hui-han,TENG Jia-yu,YANG Yan-yan,LIU Ya-feng,ZHU Zong-wei.Parallel naive Bayes algorithm for large-scale Chinese text classification based on spark[J].Journal of Central South University,2019,26(1):1-12. 被引量：22

1朱国华,程传鹏.一种改进的KNN分类方法[J].河南工程学院学报（自然科学版）,2008,20(3):65-67. 被引量：1
2程传鹏,李钜.基于文本属性关联和概念共现的KNN分类方法[J].中原工学院学报,2009,20(4):27-29.
3陈德华,韩忠明,乐嘉锦.基于相似性分析的软件构件聚类研究[J].小型微型计算机系统,2005,26(12):2207-2211. 被引量：2
4李兴华,李帅团,李登,马建峰.安全协议多目标语言代码自动化实现方案[J].通信学报,2012,33(9):152-159. 被引量：1
5张英俊,任姚鹏,陈立潮,谢斌红.基于语义相似度与优化的构件聚类算法[J].计算机工程与设计,2010,31(11):2531-2535. 被引量：6
6张文明,吴江,袁小蛟.基于密度和最近邻的K-means文本聚类算法[J].计算机应用,2010,30(7):1933-1935. 被引量：29
7徐维林,朱宗,高丽,刘金岭.基于主题模型的网络微博舆情分析[J].软件导刊,2016,15(5):153-154. 被引量：2
8盛鑫海,袁鑫攀,满君丰,涂慧.基于分组指纹的细粒度相似性检测系统[J].湖南工业大学学报,2014,28(6):81-85.
9郭建永,蔡勇,甄艳霞.新相似性度量在文档模糊聚类中的应用研究[J].计算机工程与应用,2009,45(13):160-162. 被引量：1
10任姚鹏,陈立潮,张英俊,谢斌红.基于潜在语义分析的构件聚类改进方法[J].计算机工程,2011,37(4):67-69. 被引量：9

计算机工程与设计

2009年第2期

浏览历史

内容加载中请稍等...

基于XML文档相似性的构件聚类分析被引量：7

参考文献6

二级参考文献19

共引文献82

同被引文献68

引证文献7

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于XML文档相似性的构件聚类分析 被引量：7

参考文献6

二级参考文献19

共引文献82

同被引文献68

引证文献7

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于XML文档相似性的构件聚类分析被引量：7