基于Redis的分布式爬虫框架的设计被引量：3

Design of Distributed Crawler Framework Based on Redis

下载PDF

导出

摘要随着互联网的高速发展,在互联网搜索服务中,搜索引擎扮演着越来越重要的角色。网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互联网中搜集网页,这些页面用于建立索引,从而为搜索引擎提供支持。面对当前极具膨胀的网络信息,集中式的单机爬虫早已无法适应目前的互联网信息规模,因此高性能的分布式网络爬虫系统成为目前信息采集领域研究的重点。本文对网络爬虫原理、分布式架构设计以及网络爬虫中的关键模块、瓶颈问题及解决办法进行了相关研究。 With the rapid development of Internet, search engine plays an increasingly important role in Internet search service. Web crawler is a very important component of search engine system. It is responsible for collecting web pages from the Internet, which is used to build indexes so as to provide support for search engines. Because of the great expansion of network information, centralized stand-alone web crawler has been unable to adapt to the Internet scale, so high-performance distributed web crawler system has become the focus of current research in the field of information collection. In this paper, the principles of web crawler, the design of distributed architecture, and the key modules, bottlenecks and solutions of crawler were studied.

作者高强

机构地区山东青年政治学院

出处《农业网络信息》 2017年第8期12-14,共3页 Agriculture Network Information

关键词分布式爬虫多线程 REDIS PYTHON distributed crawler multithread Redis Python

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献8

1曾超宇,李金香.Redis在高速缓存系统中的应用[J].微型机与应用,2013,32(12):11-13. 被引量：89
2肖青.基于最快响应调度法的电梯并联控制的研究[J].武汉职业技术学院学报,2016,15(5):89-91. 被引量：3
3孙艺乘,张建敏.大数据数字媒体时代网络爬虫技术下的精准招商[J].贵州大学学报（自然科学版）,2017,34(2):80-84. 被引量：9
4孟军,覃海奎,刘洁,甘宇健.分布式网络爬虫设计研究[J].现代计算机,2017,23(16):62-65. 被引量：2
5高昕,黄真.Redis集群在有轨电车车载系统中的应用[J].现代城市轨道交通,2018(2):18-20. 被引量：4
6刘石磊.对反爬虫网站的应对策略[J].电脑知识与技术,2017,13(5X):19-21. 被引量：19
7刘泽华,赵文琦,张楠.基于Scrapy技术的分布式爬虫的设计与优化[J].信息技术与信息化,2018(2):121-126. 被引量：5
8陶荣.主题搜索引擎网络爬虫搜索策略的研究与实现[J].信息与电脑（理论版）,2014,0(3):43-44. 被引量：1

引证文献3

1逄菲.基于Python的分布式网络爬虫系统的设计与实现[J].电子技术与软件工程,2018(23):6-6. 被引量：11
2王磊,刘晓丹.基于Scrapy的网络爬虫系统框架设计与实现[J].微型电脑应用,2019,35(4):48-50. 被引量：10
3徐金龙,宋任堂,张成俊.Redis在数字化生产线上的应用[J].电子技术与软件工程,2019,0(24):151-152.

二级引证文献21

1袁永旭,张淑婷,赵晓婷,金鹏琛.基于爬虫技术的病案管理人才需求现状分析[J].中国病案,2020(9):3-7. 被引量：7
2焦改香.试谈社会信息意识的形成条件和影响因素[J].地震科技情报,2000(2):11-12.
3刘清.网络爬虫针对“反爬”网站的爬取策略分析[J].信息与电脑,2019,31(3):23-24. 被引量：10
4胡俊潇,陈国伟.网络爬虫反爬策略研究[J].科技创新与应用,2019,9(15):137-138. 被引量：8
5丁岚,范开勇,王英明,谷国栋,耿伟.基于Golang的网络爬虫系统设计与实现[J].电脑编程技巧与维护,2019,0(6):41-42.
6赵民钢,周俊妍,薛文良,魏孟媛,钱竞芳,郭建峰.跨境电商进口商品与中国国际进口博览会展品的对比分析[J].中国纤检,2019(8):118-121.
7殷丽凤,张浩然.基于Python网上招聘信息的爬取和分析[J].电子设计工程,2019,27(20):22-26. 被引量：11
8徐勤亚,蔡继鹏,王星.基于Python的影片数据分析[J].信息技术与信息化,2019,0(8):113-115. 被引量：4
9卢弘卓,黄家俊,磨敦仁,蔡群英.基于云计算的旅游信息聚合客户端的研发[J].现代计算机,2019,25(34):97-100.
10方奇洲,程友清.基于Docker容器的分布式爬虫的设计与实现[J].电子设计工程,2020,28(8):61-65. 被引量：3

1罗娇敏,耿茜.一种基于Redis的分布式爬虫系统设计与实现[J].软件,2017,38(10):83-87. 被引量：5
2范孟可,王攀.基于Hadoop的固网宽带终端识别技术研究和实现[J].计算机技术与发展,2017,27(11):171-175. 被引量：2
3王卓伟.站在课改的拐点上,寻找核心素养落地的力量[J].生活教育,2018,0(2):49-50.
4谢辉.基于爬虫系统的省级公共图书馆微信平台运用调查[J].图书馆论坛,2018,38(3):117-124. 被引量：4
5刘亚卓,王钰博,乔杰华.信息聚合中图片采集与部署的实现[J].科学技术创新,2017(33):94-95.
6高昕,黄真.Redis集群在有轨电车车载系统中的应用[J].现代城市轨道交通,2018(2):18-20. 被引量：4
7本刊编辑部.《塑性工程学报》关于论文学术不端的认定及处理办法[J].塑性工程学报,2017,24(6):164-164.
8杨朝晖,牛亚雷,余金磊.基于无线自组网的区域性导控系统设计[J].计算机与网络,2017,43(22):60-63. 被引量：1
9张伟,张建,霍亮,高岩,孙天澳,李旭升,王云亮.一种基于建立索引查询方式实现层次化嵌入式软件设计的方法[J].科技创新导报,2017,14(31):157-158.
10冯俐.爬虫技术综述[J].电脑知识与技术,2017,13(9X):213-214. 被引量：8

农业网络信息

2017年第8期

浏览历史

内容加载中请稍等...

基于Redis的分布式爬虫框架的设计被引量：3

同被引文献8

引证文献3

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于Redis的分布式爬虫框架的设计 被引量：3

同被引文献8

引证文献3

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于Redis的分布式爬虫框架的设计被引量：3