-
题名基于窗口比较的网站信息增量爬取方法
被引量:1
- 1
-
-
作者
刘学
麻朴方
尤佳莉
脱立恒
-
机构
中国科学院声学研究所国家网络新媒体工程技术研究中心
中国科学院大学
-
出处
《网络新媒体技术》
2017年第4期24-27,共4页
-
基金
中国科学院战略性先导科技专项(编号:XDA06040602)
-
文摘
目前在网站信息增量爬取中,采用布隆过滤器去重是比较有效的方法,但随着存入的元素数量增加,误算率随之增加。为此本文设计并实现了一种基于窗口比较的网站信息增量爬取方法,按照网站数据呈现顺序一次性爬取有限长度的数据,并按照网站数据的呈现顺序放入数据队列,在数据队列末端设定比较窗口,通过检查比较窗口内的数据与已爬取数据的重复度决定是否停止数据爬取。实验表明,针对增量爬取未严格按照时间排序网站信息时,本方法降低了爬取损耗。
-
关键词
增量爬取
爬取效率
HASH
布隆过滤器
-
Keywords
incremental crawling, crawling efficiency, Hash, Bloom filter
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-