期刊文献+

分布式网络爬虫框架Crawlzilla 被引量:1

下载PDF
导出
摘要 互联网技术的飞速发展带了网络信息的爆炸式增长,互联网已经成为了企业,机构和个人发布信息的主要平台。据CNNIC(中国互联网络信息中心)发布的2015年中国网民搜索行为研究报告中指出,截止到2015年12月,我国搜索引擎用户达到了5.66亿,使用率为82.3%,手机搜索用户达4.78亿,使用率为77.1%。互联网的发展速度日益加快,随之而来的是爆炸式的信息体量的增长。传统的搜索引擎已经不能够满足一些企业和单位内部的个性化检索的需求。本文将对通用爬虫框架Crawlzilla做简要的分析,并说明其在企业内部制定个性检索服务的可行性。
出处 《电子技术与软件工程》 2017年第18期25-26,共2页 ELECTRONIC TECHNOLOGY & SOFTWARE ENGINEERING
  • 相关文献

参考文献2

二级参考文献27

  • 1Tom White.Hadoop权威指南[M].2版.北京:清华大学出版社,2011.
  • 2张俊林.这就是搜索引擎[M].北京:电子工业出版社,2012:1-320.
  • 3Shkapenyuk V,Suel T.Design and implementation of a high-performance distributed web crawler[M].San Jose:IEEE,2002.
  • 4Boldi P,Codenotti B,Santini M,et al.Ubicrawler:a scalable fully distributed web crawler[J].Software:Practice and Experience,2004,34(8):711-726.
  • 5吴百锋,彭澄廉,赵立勇.并行和分布式计算机监测系统的实现原理[J].计算机学报,2010,20(3):23-27.
  • 6董超群,司马超,吴利,等.云计算:概念,现状及关键技术[C]∥全国高性能计算学术年会论文集.无锡:中国计算机学会,2008:15-18.
  • 7陶冶,刘建勋,唐明董.基于Map/Reduce的分布式Web服务搜索引擎设计与实现[J].计算机科学,2011,38(8):183-192.
  • 8BRIN S, PAGE L. The anatomy of a large-scale hypertextual web search engine[ J]. Computer Networks and Isdn Systems,1998, 98 (30) : 107 -117.
  • 9BOLDI P, CODENOTTI B, SANTINI M,et al. UbiCrawler: a scalable fully distributed web crawler[ J]. Software Practice and Experience, 2004,34(8) : 711 - 726.
  • 10DECANDIAG,HASTORUN D, JAMPANI M, et al. Dynamo; amazon,s highly available key-value store[ J]. Acm Sigops Operating Systems Re-view, 2007, 41(6) : 205 -220.

共引文献8

同被引文献2

引证文献1

二级引证文献4

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部