期刊文献+

网络数据采集框架Nutch及其应用研究 被引量:2

下载PDF
导出
摘要 随着大数据与云计算、物联网、人工智能进一步融合,各行各业产生了海量电子化数据,建立大数据应用首要解决的问题就是采集数据,其中,Apache Nutch是用于数据采集的爬虫框架。为采集若干人才招聘网站职位需求数据,采用MySQL数据库进行数据存储,采用Nutch实现网站数据采集,采用排程框架Quartz实现数据定时采集和更新。
作者 周飚
出处 《中国管理信息化》 2019年第18期167-169,共3页 China Management Informationization
  • 相关文献

参考文献1

二级参考文献24

  • 1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报(自然科学版),2005,45(S1):1896-1902. 被引量:28
  • 2孙彬,王东,李娟.基于XQuery的Deep Web搜索系统的设计与实现[J].科学技术与工程,2007,7(16):4080-4084. 被引量:2
  • 3Hersovici M,Heydon A,Mitzenmacher M et al.The shark-search algorithm-an application:Tailored web site mapping. Pro-ceedings of the7th International World Wide Web Conference . 1998
  • 4Kleinberg J.Authoritative sources in a hyperlinked environment. Journal of the ACM . 1998
  • 5J.Cho,H.Garcia-Molina.The evolution of the web and implications for an incremental crawler. Proceedings of the26th Inter-national Conference on Very Large Database . 2000
  • 6M.Najork,J.L.Wiener.Breadth-first crawling yields high-quality pages. Proceedings of the10th International Conference on World Wide Web . 2001
  • 7Yan HF,Wang JY,Li XM,et al.Architectual design and evaluation of an efficient Web-crawling system. The Journal of Systems and Software . 2002
  • 8M K.Bergman.The Deep Web:Surfaceing Hidden Value. http://www.completeplanet.com/Tutorials/DeepWeb . 2000
  • 9Yiyao Lu,Hai He,Hongkun Zhao,et al.Annotating Structured Data of the Deep Web. IEEE23rd International Conference on Data Engineering . 2007
  • 10Cho J.Crawling the Web:Discovery and maintenance of large-scale Web data. . 2001

共引文献133

同被引文献17

引证文献2

二级引证文献3

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部