期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于关键长句及正文长度预分类的网页去重算法研究 被引量:2
1
作者 周杨 《软件导刊》 2012年第10期48-50,共3页
伴随互联网所包含网页数目的剧增,转载现象变得相当普遍。作为提高搜索引擎服务质量的关键问题之一,网页去重技术已经成为网页信息处理最为重要的环节。在对传统网页去重技术进行研究的基础上,针对网页正文的结构特征,提出了一种基于关... 伴随互联网所包含网页数目的剧增,转载现象变得相当普遍。作为提高搜索引擎服务质量的关键问题之一,网页去重技术已经成为网页信息处理最为重要的环节。在对传统网页去重技术进行研究的基础上,针对网页正文的结构特征,提出了一种基于关键长句及正文长度预分类的网页去重算法的核心思想。实验证明,该算法具有较高的召回率及准确率,在重复网页的过滤中有着较好的应用前景与较高的研究价值。 展开更多
关键词 网页去重 关键长句 预分类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部