用带权重的pq-gram算法计算XML文档相似度被引量：1

Calculating Similarity of XML Documents by Weighted Pq-gram Algorithm

下载PDF

导出

摘要 XML文档聚类是高效管理XML文档的重要手段,XML文档相似度计算正是其中的关键步骤。pq-gram算法是解决XML文档相似度计算问题的有效手段,但忽略了XML文档结点的有序性。带权重的pq-gram算法是在此基础上,依据XML文档的结构性,首先为结点赋予相应权重,然后基于结点的权重对pq-gram赋予权重,最后将设定的权重应用到XML文档相似度计算中。实验结果表明,带权重的pq-gram算法更好地描述结点在XML文档相似度计算中的贡献度,提高了XML文档相似度计算的精度。 Clustering for XML documents is an important method for efficiently managing XML documents,and calculating similarity of XML documents is the pivotal step. Pq-gram algorithm is an efficient method to solve the problem of calculating similarity of XML documents. However,it ignores that the nodes of XML documents are ordered. Based on the pq-gram algorithm,weighted pq-gram algorithm,in accordance with the structural characteristics of XML documents,sets weight for nodes,and sets weight for pq-grams based on the weight of nodes,then applies the weight to the method of calculating similarity of XML documents. Experimental results show that the weighted pq-gram algorithm describes the contribution of nodes better in the process of calculating similarity of XML documents,and improves the precision of calculating of XML documents.

作者王成勇杜庆伟孙静孙振

机构地区南京航空航天大学计算机科学与技术学院

出处《计算机与现代化》 2015年第3期20-25,共6页 Computer and Modernization

基金国家自然科学基金资助项目(61202350)

关键词 XML文档计算相似度 pq-gram 权重 XML documents calculate similarity pq-gram weight

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献4

1宗德才.操作题自动评分系统的设计与实现[J].计算机工程与设计,2010,31(5):1156-1160. 被引量：30
2梅红伟.基于WORD上机考试自动评分算法的研究[J].科技视界,2012(26):25-32. 被引量：2
3藏润强,孙红光,杨凤芹,冯国忠,尹良亮.基于Levenshtein和TFRSF的文本相似度计算方法[J].计算机与现代化,2018(4):84-89. 被引量：6
4朱彦廷.Excel试题自动阅卷系统的实现[J].福建电脑,2019,35(12):76-78. 被引量：3

引证文献1

1罗泉,刘芝.基于Levenshtein距离的Word操作题自动评分算法[J].现代计算机,2020,26(32):90-93. 被引量：1

二级引证文献1

1马骁,蔡满春,芦天亮.基于CNN改进模型的恶意域名训练数据生成技术[J].信息网络安全,2021(10):69-75. 被引量：1

1孙霞,程宏斌.基于模式的XML文档相似度算法[J].计算机工程,2010,36(21):54-56. 被引量：2
2赵明,骆吉洲,李建中,高宏.XCluster:基于聚类支持查询的XML多文档压缩方法[J].计算机研究与发展,2010,47(5):804-814. 被引量：3
3潘有能.XML文档自动聚类研究[J].情报学报,2006,25(2):215-220. 被引量：16
4冯少荣,潘炜炜,林子雨.基于改进k-medoids算法的XML文档聚类[J].计算机工程,2015,41(9):56-62. 被引量：4
5杨厚群,何中市,雷景生.基于划分的XML文档聚类研究[J].计算机科学,2008,35(3):183-185. 被引量：4
6孙霞,程宏斌.基于加权层次结构的XML文档相似度算法[J].武汉理工大学学报,2009,31(18):76-79. 被引量：1
7傅珊珊,吴扬扬.基于频繁结构的XML文档聚类[J].计算机工程与应用,2008,44(9):135-138. 被引量：1
8赵斌,张永胜.基于Bagging的XML文档集成聚类研究[J].计算机工程与应用,2009,45(14):138-140. 被引量：1
9蒋勇,谭怀亮,李光文.基于量子遗传算法的XML聚类方法[J].计算机应用,2011,31(2):446-449. 被引量：6
10郑仕辉,周傲英,张龙.XML文档的相似测度和结构索引研究[J].计算机学报,2003,26(9):1116-1122. 被引量：28

计算机与现代化

2015年第3期

浏览历史

内容加载中请稍等...

用带权重的pq-gram算法计算XML文档相似度被引量：1

同被引文献4

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

用带权重的pq-gram算法计算XML文档相似度 被引量：1

同被引文献4

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

用带权重的pq-gram算法计算XML文档相似度被引量：1