期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于特征码的网页去重 被引量:11
1
作者 陈基漓 牛秦洲 《微计算机信息》 北大核心 2006年第03X期113-115,共3页
网页去重处理是提高检索质量的有效途径,本文给出了一个基于特征码的网页去重算法,介绍了算法的具体实现步骤,采用二叉排序树实现。算法有较高的判断正确率,在信息检索中有较好的应用前景。
关键词 网页去重 网页特征码 二叉排序树
下载PDF
基于文本相似度的网页消重策略 被引量:6
2
作者 刘书一 《计算机应用与软件》 CSCD 2011年第11期228-229,278,共3页
针对在网页检索结果中经常出现内容相同或相似的问题,提出了一种通过计算网页相似度的方法进行网页消重。该算法通过提取网页特征串,特征串的提取在参考以往特征码提取的基础上,加入了文本结构特征的提取,通过比较特征串之间差异性的基... 针对在网页检索结果中经常出现内容相同或相似的问题,提出了一种通过计算网页相似度的方法进行网页消重。该算法通过提取网页特征串,特征串的提取在参考以往特征码提取的基础上,加入了文本结构特征的提取,通过比较特征串之间差异性的基础上得到网页的相似度。经与相似方法比较,结果表明,该方法减少了时间复杂度,具有较高的查全率和查准率,适于大规模网页消重。 展开更多
关键词 网页消重 网页特征码 文本相似度 编辑距离
下载PDF
一种基于文本抽取的网页正文去重算法 被引量:1
3
作者 曹传东 郭理 《科技信息》 2009年第1期102-103,共2页
搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于... 搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于网络信息检索结果优化处理中的页面正文内容去重。 展开更多
关键词 文本抽取 网页特征码 二叉排序树 网页去重
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部