一种计算结构化文档相关度的方法

A Method of the Relatedness Computation for Structural Documents

下载PDF

导出

摘要讨论了如何精确计算结构化文档相关度的理论模型和算法.首先分析了基于语义内容的文档相关度和基于文档特征的文档相似度之间的区别,提出利用树同构思想测量文档语义相关性.在计算过程中,通过为结点赋予不同权重反映匹配结点的位置重要性,对于未匹配结点则首次提出利用影响因子针对不同情况做适当区分,最后给出文档相关度计算公式.实验证明,此方法能够很好地区分信息检索中的模糊或者相近的请求及文档.

作者赵嫣马军李森

机构地区山东大学计算机科学与技术学院

出处《计算机研究与发展》 EI CSCD 北大核心 2007年第z2期350-355,共6页 Journal of Computer Research and Development

基金山东省自然科学基金重大项目(Z99G01) 国家"八六三"高技术研究发展计划基金项目(863-306-ZT06-01-4)

关键词 XML 文档相关度结构相似度

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1郑仕辉,周傲英,张龙.XML文档的相似测度和结构索引研究[J].计算机学报,2003,26(9):1116-1122. 被引量：28

二级参考文献15

1XQuery: A query language for XML. W3C Working Draft 15February 2001, available: http://www. w3. org/TR/xquery/.
2Tarjan. Three partition refinement algorithms. SIAM Journalon Computing, 1987, 16(6): 973-989.
3Henzinger M R, Henzinger T A, Kopke P W. Computing sim-ulations on finite and infinite graphs. In: Proceedings of the36th Annual IEEE Symposium on Foundations of ComputerScience, Milwaukee, Wisconsin, 1995. 453-462.
4Marian A, Abiteboul S, Cobena G, Mignet L. Change-centricmanagement of versions in an XML warehouse. In: Proceed-ings of the 27th International Conference on Very Large DataBases, Roma, Italy,2001. 581-590.
5Goldman R, Widom J. Summarizing and searching sequential semistructured sources. Stanford University: Technical ReportTR20000312, 2000.
6Zheng Shi-Hui, Zhou Ao-Ying et al. Structure-based approximate searching in XML data. Fudan University: Technical Report TR20010203,2001.
7Wang J T-L, Shasha D etal. Structural matching and discovery in document databases. Sigmod Record, 1997, 26(2): 560-564.
8Zhang K. A constrained editing distance between unordered labeled trees. Journal of Algorithmica, 1996, 15(3): 205-222.
9Zhang K, Shasha D. On the editing distance between unordered labeled trees. Information Processing Letters, 1992, 42(3): 133-139.
10Wang J T-L, Zhang K etal. Exact and approximate algorithmsfor unordered tree matching. IEEE Transactions on Systems,Man and Cybernetics, 1994, 24(4): 668-678.

共引文献27

1叶庆卫,汪同庆.基于二叉树相似性检测的变形文字识别研究[J].计算机工程与应用,2005,41(31):52-54. 被引量：1
2陈德华,韩忠明,乐嘉锦.基于相似性分析的软件构件聚类研究[J].小型微型计算机系统,2005,26(12):2207-2211. 被引量：2
3闫利国,贺飞.XM L文档结构相似测度研究[J].计算机应用研究,2006,23(3):44-46. 被引量：4
4潘有能.XML文档自动聚类研究[J].情报学报,2006,25(2):215-220. 被引量：16
5刘大昕,王桐.一种新的XML近似查询及排序方法[J].哈尔滨工程大学学报,2006,27(B07):407-410. 被引量：1
6杨长辉,岳友友.一种基于编辑距离的XML查询方案[J].计算机应用,2006,26(12):2991-2993. 被引量：2
7梅东霞,张晓明.基于单个XML文档结构的数据挖掘[J].石油化工高等学校学报,2007,20(1):94-98. 被引量：3
8潘有能,丁楠.基于标记树的XML文档自动分类研究[J].情报学报,2007,26(3):350-355. 被引量：5
9丘威.XML文档相似度量应用研究[J].嘉应学院学报,2007,25(6):77-82.
10班晓娟,宁淑荣,马骥,尹怡欣,张德政.基于XML结构相似性的名老中医病例聚类分析[J].计算机应用研究,2008,25(2):365-367. 被引量：7

1刘远超,王晓龙,刘秉权,钟彬彬.信息检索中的聚类分析技术[J].电子与信息学报,2006,28(4):606-609. 被引量：9
2吴树芳,刘畅,徐建民.基于术语间本体关联度的文档相关度研究[J].现代情报,2014,34(9):56-59. 被引量：4
3徐霞,李培峰,朱巧明.一个半监督的中文事件抽取方法[J].中文信息学报,2016,30(2):168-174. 被引量：4
4朱鲲鹏,刘文涵,王晓龙,刘远超.基于日志挖掘的检索推荐系统[J].沈阳建筑大学学报（自然科学版）,2009,25(2):366-370. 被引量：3
5王旭阳,尉醒醒.基于本体的语义检索方法[J].计算机工程与设计,2016,37(9):2538-2542. 被引量：6
6朱鲲鹏,魏芳.基于文档相关度计算的网页预测模型[J].计算机应用与软件,2012,29(2):109-112. 被引量：3
7张晓琳,王萍,郭彦磊,王静宇.社会网络子集(θ,k)-匿名方法[J].计算机应用,2015,35(8):2178-2183.
8励子闰,余青松,陈胜东.基于全文检索引擎的信息检索技术的应用研究[J].计算机与数字工程,2008,36(9):81-85. 被引量：8
9胡诗未,李晓峰,徐伟.基于主题词匹配频数的搜索引擎结果聚类算法[J].计算机工程与科学,2011,33(6):130-132. 被引量：2
10吴明礼,施水才.一种结合超链接分析的搜索引擎排序方法[J].计算机工程,2004,30(15):143-145. 被引量：10

计算机研究与发展

2007年第z2期

浏览历史

内容加载中请稍等...

一种计算结构化文档相关度的方法

参考文献1

二级参考文献15

共引文献27

相关作者

相关机构

相关主题

浏览历史