期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

分布式计算视域的网络爬虫技术研究

Research on Web Crawler Technology Based on Distributed Computing Horizon

下载PDF

导出

摘要传统的单机网络爬虫技术滞后于海量网页数据的应用场景,存在诸多的缺陷,但Hadoop、Spark等大数据分布式技术可以高效地存储和计算海量网络信息资源。因此,本文设计和应用一种基于Hadoop的分布式网络爬虫系统,进行系统架构设计和工作流程设计。该系统基于模块化设计的理念和方法,在分布式网络爬虫关键技术的依托下,进行分布式网络爬虫技术的功能模块设计,体现其可扩展、高可用性的特点,能较好地适用于海量网页信息资源的应用场景。 Big data distributed technologies such as Hadoop and Spark efficiently and reliably store and calculate massive network information resources. The traditional stand-alone web crawler technology lags behind the application scenarios of massive web data and has many defects. To this end, this paper designs and applies a Hadoop-based distributed web crawler system for system architecture design and workflow design. And based on the concept and method of modular design, based on the key technology of distributed web crawler, the functional module design of distributed web crawler technology is carried out, which reflects its scalability and high availability characteristics, and is better suitable for mass web information. The application scenario of the resource.

作者吴宇鹏 WU Yupeng(Fuzhou Melbourne Institute of Technology,Fuzhou Fujian 350000,China)

机构地区福州墨尔本理工职业学院

出处《信息与电脑》 2021年第19期87-89,共3页 Information & Computer

关键词分布式计算网络爬虫 HADOOP distributed computing web crawler Hadoop

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1杨月.Python网络爬虫技术的研究[J].电子世界,2021(10):57-58. 被引量：5
2周竞鸿.大数据背景下依托于Python的网络爬虫技术研究[J].信息系统工程,2021,34(3):69-70. 被引量：4
3顾勤.网络爬虫技术原理及其应用研究[J].信息与电脑,2021,33(4):174-176. 被引量：7
4李彦.基于Python的网络爬虫技术的研究[J].电子世界,2021(3):39-40. 被引量：12
5赵文杰,古荣龙.基于Python的网络爬虫技术[J].河北农机,2020(8):65-66. 被引量：7
6姚文杰,艾旭升,栾咏红,李良.POS机系统的数据爬虫技术[J].福建电脑,2020,36(4):91-93. 被引量：1
7钟机灵.基于Python网络爬虫技术的数据采集系统研究[J].信息通信,2020(4):96-98. 被引量：28
8余本国.基于python网络爬虫的浏览器伪装技术探讨[J].太原学院学报（自然科学版）,2020,38(1):47-50. 被引量：8

二级参考文献30

1周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：154
2曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39
3杨俊峰,黎建辉,杨风雷.深层网站Ajax页面数据采集研究综述[J].计算机应用研究,2013,30(6):1606-1610. 被引量：26
4赵本本,殷旭东,王伟.基于Scrapy的GitHub数据爬虫[J].电子技术与软件工程,2016(6):199-202. 被引量：18
5孙立伟,何国辉,吴礼发.网络爬虫技术的研究[J].电脑知识与技术（过刊）,2010,0(15):4112-4115. 被引量：134
6杨琳,慕云逸,时铭月.基于NCrawler的网络爬虫设计及其应用探讨[J].软件产业与工程,2016(5):31-35. 被引量：3
7彭纪奔,吴林,陈贤,黄雷君.基于爬虫技术的网络负面情绪挖掘系统设计与实现[J].计算机应用与软件,2016,33(10):9-13. 被引量：15
8姜杉彪,黄凯林,卢昱江,张俊杰,曾志高,刘强.基于Python的专业网络爬虫的设计与实现[J].企业科技与发展,2016(8):17-19. 被引量：31
9钱程,阳小兰,朱福喜.基于Python的网络爬虫技术[J].黑龙江科技信息,2016(36):273-273. 被引量：27
10孙艺乘,张建敏.大数据数字媒体时代网络爬虫技术下的精准招商[J].贵州大学学报（自然科学版）,2017,34(2):80-84. 被引量：9

共引文献62

1冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：7
2周峦,林芸,陈露诗.剖宫产术中出血相关因素的探讨[J].广东医学,2000,21(5):420-421. 被引量：1
3居梓俊,邓居旺,孙建振,李东阳,黄翀鹏.基于Python和Hadoop的图书馆实时监控系统设计与实现[J].电脑编程技巧与维护,2020(8):20-22. 被引量：1
4赵北庚.基于Flask与爬虫技术的可视化深度学习数据标注系统[J].电子制作,2020,28(20):36-37. 被引量：7
5温佐承,贾雪.基于Python的网络爬取[J].电脑编程技巧与维护,2020(12):23-24. 被引量：8
6李文华.解析网络爬虫技术原理[J].福建电脑,2021,37(1):95-96. 被引量：7
7李艳,丁国强,张庆.网络招聘数据可视化系统的设计与实现[J].信息与电脑,2021,33(1):112-115. 被引量：2
8马辉.Python在校园大数据中的应用研究[J].锋绘,2021(2):419-420.
9卢江,刘文正.基于爬虫技术的图书购买推荐与比价策略研究[J].科技资讯,2021,19(1):214-219.
10潘洪涛.一种多源统一爬虫框架的设计与实现[J].软件工程,2021,24(4):30-33. 被引量：2

1陈飞君.城建档案信息化管理的实现策略[J].黑龙江档案,2021(1):128-129. 被引量：2
2张爱华.小学数学教学中网络信息资源的应用[J].课程教育研究（学法教法研究）,2020(11):94-94.
3孙美玉.档案信息资源开发利用工作问题分析及处理策略[J].兰台内外,2021(23):67-69. 被引量：3
4薛春艳.一种网页结构化数据的抓取方法[J].现代工业经济和信息化,2021,11(10):191-192. 被引量：1
5杨礼保.机电管理中网络信息资源的应用探讨[J].产城（上半月）,2021(11):126-127.
6冯艳茹.基于Python的网络爬虫系统的设计与实现[J].电脑与信息技术,2021,29(6):47-50. 被引量：26
7余杨奎,王旅,李婉茹,程振林,刘洁.一种基于页面赋权的网页内容提取方法[J].通化师范学院学报,2021,42(10):20-28.
8刘舆,曾德贤,胡远方,周尚辉.基于知识图谱的卫星情报分析方法研究[J].情报探索,2021(11):1-7. 被引量：2

信息与电脑

2021年第19期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部