期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于简单树匹配算法的Web页面结构相似性度量 被引量:15
1
作者 何昕 谢志鹏 《计算机研究与发展》 EI CSCD 北大核心 2007年第z3期1-6,共6页
网页结构相似性的度量是Web信息处理中的一项重要任务,在数据抽取和搜索引擎等研究领域有着潜在的重要研究价值.好的相似性度量方法可以提高数据抽取的准确率和速度,还可以提高搜索引擎的速度,提高返回数据的质量,减少大量冗余数据占据... 网页结构相似性的度量是Web信息处理中的一项重要任务,在数据抽取和搜索引擎等研究领域有着潜在的重要研究价值.好的相似性度量方法可以提高数据抽取的准确率和速度,还可以提高搜索引擎的速度,提高返回数据的质量,减少大量冗余数据占据的存储空间.实现该任务的已有算法往往存在着计算复杂度过高的问题,针对这一问题研究HTML文档标签特点,减少传统算法中使用的算子,进而采用简单树匹配算法来计算Web文档之间的结构相似度.简单树匹配不允许结点的替换和跨层匹配,从而大大提高了算法的运行效率.实验结果表明,所提出的方法不论在速度还是精度上都优于著名的Bag of XPaths方法. 展开更多
关键词 web文件相似度 树匹配 结构相似
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部