期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于后缀树的中文新闻重复网页识别算法 被引量:6
1
作者 钱爱兵 江岚 《现代图书情报技术》 CSSCI 北大核心 2008年第3期55-61,共7页
针对识别中文新闻重复网页传统方法的不足,提出以后缀树作为基本数据结构,依据新闻网页的标题性和时间性,构建中文新闻重复网页识别算法。该算法以Ukkonen算法和Matching Statistics算法为基础,并对其具体实现进行优化。实验结果表明,... 针对识别中文新闻重复网页传统方法的不足,提出以后缀树作为基本数据结构,依据新闻网页的标题性和时间性,构建中文新闻重复网页识别算法。该算法以Ukkonen算法和Matching Statistics算法为基础,并对其具体实现进行优化。实验结果表明,该算法不仅具有有效性,而且对计算字符串相似度也有启发意义。 展开更多
关键词 后缀树 重复网页 Ukkonen算法 匹配统计算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部