期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于网页去噪Hash的增量式网络爬虫研究 被引量:2
1
作者 张皓 周学广 《舰船电子工程》 2014年第2期86-90,共5页
基于网页Hash值产生的增量式网络爬虫,可以实现网页的增量抓取过程。然而,由于网页噪声的存在,经典Hash算法对文本产生的Hash值过于敏感,导致通过Hash值对比判断网页变化的过程偏离实际情况。研究提出一种去噪后Hash产生方法,通过对网... 基于网页Hash值产生的增量式网络爬虫,可以实现网页的增量抓取过程。然而,由于网页噪声的存在,经典Hash算法对文本产生的Hash值过于敏感,导致通过Hash值对比判断网页变化的过程偏离实际情况。研究提出一种去噪后Hash产生方法,通过对网页文本块进行"正文"与"噪声"分类,去除噪声后对网页正文内容产生Hash值并判断网页是否变化,提高网页增量抓取效率。实验结果表明所提出的基于去噪后Hash产生方法的增量式抓取过程,Hash值敏感度降低,有效提高了网络爬虫增量抓取性能。 展开更多
关键词 hash 网页去噪 增量 heritrix
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部