期刊文献+

基于Python的新浪新闻爬虫系统的设计与实现 被引量:7

下载PDF
导出
摘要 随着大数据时代的到来,数据量呈几何倍增长。以新浪新闻为代表的一系列新闻检索网站蕴含着大量的数据资源。本文以新浪新闻为研究对象,利用Python爬虫技术实现网页下载与网页解析,完成了对目标数据的高效获取,并将获取的信息进行格式化存储。实验结果表明,本文所提出的程序实现了网页数据的快速获取,为后续的数据挖掘提供支持。
机构地区 辽宁科技学院
出处 《电子技术与软件工程》 2018年第9期188-188,242,共2页 ELECTRONIC TECHNOLOGY & SOFTWARE ENGINEERING
  • 相关文献

参考文献5

二级参考文献51

  • 1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报(自然科学版),2005,45(S1):1896-1902. 被引量:28
  • 2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量:153
  • 3孙彬,王东,李娟.基于XQuery的Deep Web搜索系统的设计与实现[J].科学技术与工程,2007,7(16):4080-4084. 被引量:2
  • 4Hersovici M,Heydon A,Mitzenmacher M et al.The shark-search algorithm-an application:Tailored web site mapping. Pro-ceedings of the7th International World Wide Web Conference . 1998
  • 5Kleinberg J.Authoritative sources in a hyperlinked environment. Journal of the ACM . 1998
  • 6J.Cho,H.Garcia-Molina.The evolution of the web and implications for an incremental crawler. Proceedings of the26th Inter-national Conference on Very Large Database . 2000
  • 7M.Najork,J.L.Wiener.Breadth-first crawling yields high-quality pages. Proceedings of the10th International Conference on World Wide Web . 2001
  • 8Yan HF,Wang JY,Li XM,et al.Architectual design and evaluation of an efficient Web-crawling system. The Journal of Systems and Software . 2002
  • 9M K.Bergman.The Deep Web:Surfaceing Hidden Value. http://www.completeplanet.com/Tutorials/DeepWeb . 2000
  • 10Yiyao Lu,Hai He,Hongkun Zhao,et al.Annotating Structured Data of the Deep Web. IEEE23rd International Conference on Data Engineering . 2007

共引文献223

同被引文献29

引证文献7

二级引证文献21

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部