期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于窗口比较的网站信息增量爬取方法 被引量:1
1
作者 刘学 麻朴方 +1 位作者 尤佳莉 脱立恒 《网络新媒体技术》 2017年第4期24-27,共4页
目前在网站信息增量爬取中,采用布隆过滤器去重是比较有效的方法,但随着存入的元素数量增加,误算率随之增加。为此本文设计并实现了一种基于窗口比较的网站信息增量爬取方法,按照网站数据呈现顺序一次性爬取有限长度的数据,并按照网站... 目前在网站信息增量爬取中,采用布隆过滤器去重是比较有效的方法,但随着存入的元素数量增加,误算率随之增加。为此本文设计并实现了一种基于窗口比较的网站信息增量爬取方法,按照网站数据呈现顺序一次性爬取有限长度的数据,并按照网站数据的呈现顺序放入数据队列,在数据队列末端设定比较窗口,通过检查比较窗口内的数据与已爬取数据的重复度决定是否停止数据爬取。实验表明,针对增量爬取未严格按照时间排序网站信息时,本方法降低了爬取损耗。 展开更多
关键词 增量 爬取效率 HASH 布隆过滤器
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部