基于Hadoop的分布式网络爬虫技术的设计与实现被引量：3

Design and implementation of A Distributed Web Crawler Technology based on Hadoop

下载PDF

导出

摘要随着互联网行业和信息技术的发展,Google、IBM和Apache等大型公司纷纷投入去发展云计算,其中Apache开发的Hadoop平台是一个对用户极为友好的开源云计算框架。该文就是要基于Hadoop框架去设计和实现分布式网络爬虫技术,以完成大规模数据的采集,其中采用Map/Reduce分布式计算框架和分布式文件系统,来解决单机爬虫效率低、可扩展性差等问题,提高网页数据爬取速度并扩大爬取的规模。 with the rapid development of the Internet industry and information technology, Google, IBM and Apache and otherLarge Firm are input to the development of cloud computing, in which Apache Hadoop development platform is a very friendly tousers of open source cloud computing framework. This paper is based on the Hadoop framework to design and implementation of adistributed web crawler technology, to complete the large-scale data collection, in which the Map/Reduce distributed computingframework and distributed file system, to solve the single crawler low efficiency, poor scalability issues, improve the Webpagecrawling speed and expand the scale of crawling.

作者岳雨俭

机构地区安徽理工大学

出处《电脑知识与技术（过刊）》 2015年第3X期36-38,共3页 Computer Knowledge and Technology

关键词云计算分布式网络爬虫 HADOOP cloud computing distributed web crawler Hadoop

分类号 TP393.092 [自动化与计算机技术—计算机应用技术] TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1程锦佳.基于Hadoop的分布式爬虫及其实现[D].北京邮电大学2010
2IBM CLOUD. http://www.ibm.com/cloud-computing/us/en .
3Evangelinos C,Hill C.Cloud Computing for parallel Scientific HPC Applications: Feasibility of running Coupled Atmosphere-Ocean Climate Models on Amazon’’s EC2. ratio . 2008
4陈俊,陈孝威.基于Hadoop建立云计算系统[J].贵州大学学报（自然科学版）,2011,28(3):91-93. 被引量：8
5王俊生,施运梅,张仰森.基于Hadoop的分布式搜索引擎关键技术[J].北京信息科技大学学报（自然科学版）,2011,26(4):53-56. 被引量：15

二级参考文献7

1曾理,王以群.Hadoop集群和单机数据处理的耗时对比实验[J].硅谷,2009,2(19):55-56. 被引量：9
2BRADFORD R, KOTSOVINOS E, FELDMANN A, et al. Live wide - area migration of virtual machines including local persistent state[C C ]//Proc of the 3 rd International Conference on Virtual Execution Environments ,2007 : 169 - 179.
3ALEX C, SNOEREN, HARI BALAKRISHNAN. An end to end approach to host mobility[ C]//Proc of the 6th Annual International Conference on Mobile Com- puting and Networking , 2000 :155 - 166.
4陈全,邓倩妮.云计算及其关键技术[J].计算机应用,2009,29(9):2562-2567. 被引量：932
5栾亚建,黄翀民,龚高晟,赵铁柱.Hadoop平台的性能优化研究[J].计算机工程,2010,36(14):262-263. 被引量：51
6曹宁,吴中海,刘宏志,张齐勋.HDFS下载效率的优化[J].计算机应用,2010,30(8):2060-2065. 被引量：23
7贺广宜,罗莉.分布式搜索引擎的设计与实现[J].计算机应用,2003,23(5):83-85. 被引量：11

共引文献21

1张媛.基于Hadoop云平台的数据传输保护研究[J].兰州文理学院学报（自然科学版）,2013,27(5):82-84.
2谌超,强保华,石龙.基于Hadoop MapReduce的大规模数据索引构建与集群性能分析[J].桂林电子科技大学学报,2012,32(4):307-312. 被引量：11
3穆祥昆,赵晨飞,霍英东,唐召东.基于云架构的网络安全事件监测系统研究[J].信息网络安全,2013(10):8-10. 被引量：5
4白俊,郭贺彬.基于ElasticSearch的大日志实时搜索的软件集成方案研究[J].吉林师范大学学报（自然科学版）,2014,35(1):85-87. 被引量：24
5张永,尹传晔,吴崇正.基于MapReduce的PageRank算法优化研究[J].计算机应用研究,2014,31(2):431-434. 被引量：5
6刘丽,司小磊,张莹,彭弗楠.基于云计算的幼教资源管理平台实现[J].电脑知识与技术,2014(2):755-757. 被引量：1
7翁钢民,李维锦.基于智慧旅游的城市旅游创新发展研究[J].商业研究,2014(9):175-180. 被引量：8
8张文光,陈俊,姚钰辉,申田静.分布式网络环境中基于MapReduce的WordCount实现[J].贵州师范大学学报（自然科学版）,2015,33(1):93-97. 被引量：10
9冯钧,许潇,唐志贤,卞一路.面向水利信息资源目录服务的分布式语义检索方法研究[J].计算机与现代化,2015(2):122-126. 被引量：4
10任乐乐,何灵敏.一种改进的主从节点选举算法用于实现集群负载均衡[J].中国计量学院学报,2015,26(3):341-346.

同被引文献29

1王静,张倩,朱晓言,段娜,石钟山,郑永军,王新.基于CAN总线的联合收割机脱粒滚筒测控系统研究[J].农机化研究,2012,34(1):71-75. 被引量：6
2陈进,顾文龙,李耀明.联合收获机智能控制试验台设计与试验[J].农业机械学报,2011,42(S1):78-81. 被引量：10
3张升平.Ajax在优化Web系统中的应用[J].通信技术,2009,42(2):286-288. 被引量：6
4贺正楚,张训,周震虹.战略性新兴产业的选择与评价及实证分析[J].科学学与科学技术管理,2010,31(12):62-67. 被引量：98
5贺正楚,吴艳.战略性新兴产业的评价与选择[J].科学学研究,2011,29(5):678-683. 被引量：149
6李志义.网络爬虫的优化策略探略[J].现代情报,2011,31(10):31-35. 被引量：17
7吴黎兵,柯亚林,何炎祥,刘楠.分布式网络爬虫的设计与实现[J].计算机应用与软件,2011,28(11):176-179. 被引量：11
8胡晟.基于网络爬虫的Web挖掘应用[J].软件,2012,33(7):145-147. 被引量：8
9杨俊峰,黎建辉,杨风雷.深层网站Ajax页面数据采集研究综述[J].计算机应用研究,2013,30(6):1606-1610. 被引量：26
10李新成,李民赞,王锡九,郑立华,张漫,孙茂真,孙红.谷物联合收割机远程测产系统开发及降噪试验[J].农业工程学报,2014,30(2):1-8. 被引量：26

引证文献3

1李中显,蔡宗慧.基于Hadoop云平台的联合收割机远程监控系统研究[J].农机化研究,2017,39(12):185-189. 被引量：10
2魏倩男,贺正楚,陈一鸣.基于网络爬虫的京东电商平台数据分析[J].经济数学,2018,35(1):77-85. 被引量：10
3杨君,陈春玲,余瀚.基于Scrapy技术的数据采集系统的设计与实现[J].计算机技术与发展,2018,28(10):177-181. 被引量：14

二级引证文献34

1云洋.基于Scrapy的网络爬虫设计与实现[J].电脑编程技巧与维护,2018(9):19-21. 被引量：2
2张喜红,王玉香.基于Scrapy的中药材网络信息采集方法研究[J].江汉大学学报（自然科学版）,2018,46(6):522-527. 被引量：2
3徐郑琴.基于Scrapy的番茄病虫害数据收集[J].电脑知识与技术,2019,15(1X):24-25.
4王尔玺,周一.基于云平台的分布式新能源监控数据分析方法研究[J].能源与环保,2018,40(3):154-158. 被引量：5
5翟艳辉.自走式小麦联合收割机电气控制线路优化[J].农机化研究,2019,41(2):233-237. 被引量：4
6方华丽,雷蕾.基于ARM的联合收割机谷物产量计量系统的研究[J].农机化研究,2019,41(9):125-129. 被引量：2
7张喜红.基于Python的中药材价格信息爬虫的设计[J].枣庄学院学报,2019,36(2):67-72. 被引量：3
8陈付旻,洛桑嘎登,刘晓慧.爬虫分析城市温度之旅游导向[J].电脑知识与技术,2019,15(4Z):29-30.
9刘洋.基于Django框架的运动会管理系统的应用研究[J].技术与教育,2019,33(2):15-18. 被引量：2
10江永洪.陕西省汽车零部件产业集群网设计与实现[J].微型电脑应用,2019,35(7):34-37.

1纪晓华.“聚焦爬虫”技术[J].互联网天地,2007(12):43-43.
2万保成,牛太阳,韩佳新.基于Hadoop的聚类算法实现个性化推荐[J].现代计算机（中旬刊）,2014(10):43-46.
3刘臣.非关系数据库CouchDB的应用[J].电脑知识与技术（过刊）,2013,19(5X):3220-3222. 被引量：2
4胡彧,封俊.Hadoop下的分布式搜索引擎[J].计算机系统应用,2010,19(7):224-228. 被引量：15
5张明杰.基于网络爬虫技术的舆情数据采集系统设计与实现[J].现代计算机,2015,21(12):72-75. 被引量：9
6曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：39
7戎翔,李玲娟.基于MapReduce的频繁项集挖掘方法[J].西安邮电学院学报,2011,16(4):37-39. 被引量：24
8杨旻.Hadoop云计算平台在高校实验室教学环境中的实现[J].电脑知识与技术,2011,7(3X):2179-2181. 被引量：13
9沈永梅,王晖.一种基于Hadoop的大数据挖掘云服务及应用研究[J].数字技术与应用,2016,34(6):81-81. 被引量：2
10Internet与表面活性剂[J].日用化学品科学,2002,25(4):46-46.

电脑知识与技术（过刊）

2015年第3X期

浏览历史

内容加载中请稍等...

基于Hadoop的分布式网络爬虫技术的设计与实现被引量：3

参考文献5

二级参考文献7

共引文献21

同被引文献29

引证文献3

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的分布式网络爬虫技术的设计与实现 被引量：3

参考文献5

二级参考文献7

共引文献21

同被引文献29

引证文献3

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的分布式网络爬虫技术的设计与实现被引量：3