-
题名基于泊松过程的爬虫调度策略分析
被引量:1
- 1
-
-
作者
徐尚瑜
-
机构
南京邮电大学计算机学院
-
出处
《现代计算机》
2009年第12期68-71,共4页
-
文摘
爬虫是搜索引擎的一个重要组成部分,如何有效地保证本地镜像的新鲜度成为爬虫研究的一个热点问题。根据网页更新符合泊松过程的特点,提出一种及时同步本地数据库与远程网站的方法。通过保存有关网页更新情况的历史记录,统计出各个网页的更新频率,并以此确定爬虫对该网页的访问频率。通过实验证明基于泊松过程的爬虫调度策略的可行性。
-
关键词
爬虫调度
泊松过程
更新频率
爬行周期
-
Keywords
Crawler Scheduling Strategy
Poisson Process
Update Frequency
Crawling Cycle
-
分类号
TP309.3
[自动化与计算机技术—计算机系统结构]
-
-
题名基于时效性的爬虫调度
被引量:1
- 2
-
-
作者
韩瑞昕
-
机构
北京工业大学信息学部
-
出处
《软件导刊》
2020年第1期108-112,共5页
-
文摘
搜索引擎作为互联网信息获取的入口,实现高效、准确的信息获取非常重要,爬虫作为搜索引擎的上游,其重要性不言而喻,特别是大数据时代信息更新频繁,如何在第一时间获取新闻是实现爬虫时效性的重要因素。为了充分利用有限资源,提升带宽利用率,设计一种基于历史数据预测的爬虫调度算法。该算法通过抓取网站历史,更新频次积累数据,使用随机森林回归建立模型,并在系统中实现爬虫调度。实验结果表明,该策略在抓取新链的命中率上提升了46%,平均成本降低了11%,平均抓取延时降低了14%。
-
关键词
搜索引擎
爬虫调度
回归预测
随机森林
-
Keywords
search engine
crawler scheduling
regression prediction
random forest
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-