期刊文献+

面向网络爬虫的高可用动态池系统设计与实现 被引量:2

Design of A Highly-Available and Dynamic IP Pool System for Web Crawler
下载PDF
导出
摘要 大数据时代下,大规模采集Web数据的网络爬虫显得越来越重要。为解决爬虫IP的访问频率受限问题,提出了一种高可用动态代理池系统,从而解除IP访问频率限制,提高了网络爬虫性能。通过带有动态池系统的爬虫实验,验证了该系统的可行性与有效性。 Attributing to the ability of collection of large-scale web data,web crawler is increasingly becoming important in the era of big data.To tackle the problem of the restricted access frequency of a crawler IP,a highly-available and dynamic IP pool system is proposed which reliefs the limited access frequency and thus improves the performance of a crawler.The feasibility and validity of the proposed approach is demonstrated through experiments of crawler with dynamic IP pool system.
作者 王佳鹏 徐海蛟 许培宇 何佳蕾 林冠成 WANG Jiapeng;XU Haijiao;XU Peiyu;HE Jialei;LIN Guancheng(Department of Computer Science,Guangdong University of Education,Guangzhou,China,510303)
出处 《福建电脑》 2019年第6期8-11,共4页 Journal of Fujian Computer
基金 2019年广东第二师范学院校级教学质量与教学改革工程项目(No.2019jxgg18) 2019年广东第二师范学院大学生创新创业训练计划项目(No.201914278146)资助 广东第二师范学院软件工程重点学科建设项目(No.9030-1700207) 国家自然科学基金青年科学基金项目(No.61802132) 广东省自然科学基金项目(No.2018A0303130169) 广东省科技计划项目(No.粤财农[2017]94号、No.2016A010106007) 广东省应用型科技研发专项资金资助项目(No.2016B090927010)
关键词 IP代理池 IP访问频率 网络爬虫 NOSQL IP Proxy Pool IP Access Frequency Web Crawler NoSQL
  • 相关文献

参考文献10

二级参考文献56

共引文献57

同被引文献15

引证文献2

二级引证文献3

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部