期刊文献+

基于Hadoop的分布式网络爬虫技术的设计与实现 被引量:3

Design and implementation of A Distributed Web Crawler Technology based on Hadoop
下载PDF
导出
摘要 随着互联网行业和信息技术的发展,Google、IBM和Apache等大型公司纷纷投入去发展云计算,其中Apache开发的Hadoop平台是一个对用户极为友好的开源云计算框架。该文就是要基于Hadoop框架去设计和实现分布式网络爬虫技术,以完成大规模数据的采集,其中采用Map/Reduce分布式计算框架和分布式文件系统,来解决单机爬虫效率低、可扩展性差等问题,提高网页数据爬取速度并扩大爬取的规模。 with the rapid development of the Internet industry and information technology, Google, IBM and Apache and otherLarge Firm are input to the development of cloud computing, in which Apache Hadoop development platform is a very friendly tousers of open source cloud computing framework. This paper is based on the Hadoop framework to design and implementation of adistributed web crawler technology, to complete the large-scale data collection, in which the Map/Reduce distributed computingframework and distributed file system, to solve the single crawler low efficiency, poor scalability issues, improve the Webpagecrawling speed and expand the scale of crawling.
作者 岳雨俭
机构地区 安徽理工大学
出处 《电脑知识与技术(过刊)》 2015年第3X期36-38,共3页 Computer Knowledge and Technology
关键词 云计算 分布式网络爬虫 HADOOP cloud computing distributed web crawler Hadoop
  • 相关文献

参考文献5

  • 1程锦佳.基于Hadoop的分布式爬虫及其实现[D].北京邮电大学2010
  • 2IBM CLOUD. http://www.ibm.com/cloud-computing/us/en .
  • 3Evangelinos C,Hill C.Cloud Computing for parallel Scientific HPC Applications: Feasibility of running Coupled Atmosphere-Ocean Climate Models on Amazon’’s EC2. ratio . 2008
  • 4陈俊,陈孝威.基于Hadoop建立云计算系统[J].贵州大学学报(自然科学版),2011,28(3):91-93. 被引量:8
  • 5王俊生,施运梅,张仰森.基于Hadoop的分布式搜索引擎关键技术[J].北京信息科技大学学报(自然科学版),2011,26(4):53-56. 被引量:15

二级参考文献7

共引文献21

同被引文献29

引证文献3

二级引证文献34

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部