期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于泊松过程的爬虫调度策略分析 被引量:1
1
作者 徐尚瑜 《现代计算机》 2009年第12期68-71,共4页
爬虫是搜索引擎的一个重要组成部分,如何有效地保证本地镜像的新鲜度成为爬虫研究的一个热点问题。根据网页更新符合泊松过程的特点,提出一种及时同步本地数据库与远程网站的方法。通过保存有关网页更新情况的历史记录,统计出各个网页... 爬虫是搜索引擎的一个重要组成部分,如何有效地保证本地镜像的新鲜度成为爬虫研究的一个热点问题。根据网页更新符合泊松过程的特点,提出一种及时同步本地数据库与远程网站的方法。通过保存有关网页更新情况的历史记录,统计出各个网页的更新频率,并以此确定爬虫对该网页的访问频率。通过实验证明基于泊松过程的爬虫调度策略的可行性。 展开更多
关键词 爬虫调度 泊松过程 更新频率 爬行周期
下载PDF
基于时效性的爬虫调度 被引量:1
2
作者 韩瑞昕 《软件导刊》 2020年第1期108-112,共5页
搜索引擎作为互联网信息获取的入口,实现高效、准确的信息获取非常重要,爬虫作为搜索引擎的上游,其重要性不言而喻,特别是大数据时代信息更新频繁,如何在第一时间获取新闻是实现爬虫时效性的重要因素。为了充分利用有限资源,提升带宽利... 搜索引擎作为互联网信息获取的入口,实现高效、准确的信息获取非常重要,爬虫作为搜索引擎的上游,其重要性不言而喻,特别是大数据时代信息更新频繁,如何在第一时间获取新闻是实现爬虫时效性的重要因素。为了充分利用有限资源,提升带宽利用率,设计一种基于历史数据预测的爬虫调度算法。该算法通过抓取网站历史,更新频次积累数据,使用随机森林回归建立模型,并在系统中实现爬虫调度。实验结果表明,该策略在抓取新链的命中率上提升了46%,平均成本降低了11%,平均抓取延时降低了14%。 展开更多
关键词 搜索引擎 爬虫调度 回归预测 随机森林
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部