-
题名基于网页去噪Hash的增量式网络爬虫研究
被引量:2
- 1
-
-
作者
张皓
周学广
-
机构
海军工程大学信息安全系
-
出处
《舰船电子工程》
2014年第2期86-90,共5页
-
文摘
基于网页Hash值产生的增量式网络爬虫,可以实现网页的增量抓取过程。然而,由于网页噪声的存在,经典Hash算法对文本产生的Hash值过于敏感,导致通过Hash值对比判断网页变化的过程偏离实际情况。研究提出一种去噪后Hash产生方法,通过对网页文本块进行"正文"与"噪声"分类,去除噪声后对网页正文内容产生Hash值并判断网页是否变化,提高网页增量抓取效率。实验结果表明所提出的基于去噪后Hash产生方法的增量式抓取过程,Hash值敏感度降低,有效提高了网络爬虫增量抓取性能。
-
关键词
hash
网页去噪
增量
heritrix
-
Keywords
hash, webpage denoising, incremental, heritrix
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-