期刊文献+

基于Java平台的分布式网络爬虫系统研究 被引量:5

下载PDF
导出
摘要 近年来,互联网行业取得了飞速发展,国内网民数量不断增加,互联网在人民生活中的影响日益显著。文章主要分析了网络爬虫的基本原理和设计过程,介绍了网络爬虫开发过程中所采用的编程语言、开发环境以及分析工具,介绍了目前网络爬虫经常遇到的反爬措施和应对方法。通过对比不同编程语言、编程环境在实现网络爬虫过程中的优势和不足,得出更为适合编写网络爬虫的开发方式。通过对比不同网络分析工具在抓取网络封包和分析数据中的功能特点,向设计者推荐了分析网络请求和查看数据的有效工具。
作者 郑豪 何彦雨
出处 《科技创新与应用》 2017年第1期112-112,共1页 Technology Innovation and Application
  • 相关文献

参考文献1

二级参考文献12

  • 1Hemovici M, Jacovi M, Maarek Y S, et al. The Shark-Search Algorithm: An Application:Tailored Web Site Mapping[ C ]//Proceedings of the7th international World Wide Web 7 conference. Brisbane, Australia, 1998.
  • 2Joson Rennie, Andrew Kachites McCallum. Using reinforcement learning to spider the web efficiently[ C ]//Proceedings of the 16th International Conference on Machine Learning( ICML - 99 ). Bled, Slovenia, 1999:335 - 343.
  • 3Diligenti M, Coetzee F, Lawrence S, et al. Focused crawling using context graphs. Proceedings of the 26th International Conference on Very Large Database ( VLDB2000), 2000:527 - 534.
  • 4Aggaewal C, A1-Garawif Yup. Intelligent crawling on the World Wide Web with arbitrary predicates[ C ]//Proc of the 10th International WoAd Wide Web Conference. HongKong: [ S n] ,2001.
  • 5Maenehea Ehrig. Ontology-focused crawling of Web documents[ C ]//Proc of ACM Symposium on Applied Computing ,2003.
  • 6Chakrabarti S, Punera K, Subramanyam M. Accelerated Focused Crawling through Online Relevance Feedback [ C ]//Proceedings of the 11 th International Conference on World Wide Web, Hawaii, USA ,2002 : 148 - 159.
  • 7Cai Rui, Yang Jiang-ming, Wei lai. iRobot: An Intelligent Crawler for Web Forums [ A ]//Proceedings of the 17th International world Wide Web Conference[ C ]. ACM Press ,2008:447 - 456.
  • 8Duskin O, Dror G. Feitelson distinguishing humans from robots in Web search logs:Preliminary results using query rates and intervals [ C ]// Proceedings of the 2009 Workshop on Web Search Click Data, New York :ACM ,2009:15 -19.
  • 9曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量:39
  • 10王舜燕,李蕾,吴兵华.基于ID3分类算法的深度网络爬虫设计[J].现代图书情报技术,2008(6):41-45. 被引量:4

共引文献22

同被引文献22

引证文献5

二级引证文献16

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部