摘要
大数据时代下,大规模采集Web数据的网络爬虫显得越来越重要。为解决爬虫IP的访问频率受限问题,提出了一种高可用动态代理池系统,从而解除IP访问频率限制,提高了网络爬虫性能。通过带有动态池系统的爬虫实验,验证了该系统的可行性与有效性。
Attributing to the ability of collection of large-scale web data,web crawler is increasingly becoming important in the era of big data.To tackle the problem of the restricted access frequency of a crawler IP,a highly-available and dynamic IP pool system is proposed which reliefs the limited access frequency and thus improves the performance of a crawler.The feasibility and validity of the proposed approach is demonstrated through experiments of crawler with dynamic IP pool system.
作者
王佳鹏
徐海蛟
许培宇
何佳蕾
林冠成
WANG Jiapeng;XU Haijiao;XU Peiyu;HE Jialei;LIN Guancheng(Department of Computer Science,Guangdong University of Education,Guangzhou,China,510303)
出处
《福建电脑》
2019年第6期8-11,共4页
Journal of Fujian Computer
基金
2019年广东第二师范学院校级教学质量与教学改革工程项目(No.2019jxgg18)
2019年广东第二师范学院大学生创新创业训练计划项目(No.201914278146)资助
广东第二师范学院软件工程重点学科建设项目(No.9030-1700207)
国家自然科学基金青年科学基金项目(No.61802132)
广东省自然科学基金项目(No.2018A0303130169)
广东省科技计划项目(No.粤财农[2017]94号、No.2016A010106007)
广东省应用型科技研发专项资金资助项目(No.2016B090927010)