期刊文献+

基于Python和Scrapy框架的网页爬虫设计与实现 被引量:7

Design and Implementation of Web Crawler Based on Python and Scrapy
下载PDF
导出
摘要 针对不同的网页数据环境设计有效的爬虫方案,更加有助于爬取信息的准度和效度。文中以Python及其Scrapy框架为基础,以贝壳网为例,通过对网站的页面源码结构进行深入分析,编写了行之有效的爬虫文件来获取目标网站信息。该设计方法可以应用到不同的多级页面信息类型网站,为基于Web的数据分析提供策略采集和分析支持。 Designing effective crawling strategies for different network data environments can enhance the accuracy and validity of crawling information.Taking Bakclass.com as an example,this paper analyzes the structure of the source code of the website page based on Python and its Scrapy framework environment,and then composes effective crawler files to obtain target website information.Targeting the type of different multi-level information websites,this designing method supports network data analysis based on Web by acquiring and analyzing strategies.
作者 陈皓 周传生 CHEN Hao;ZHOU Chuan-sheng(Network and Information Center,Shenyang Normal University,Shenyang 110034,China)
出处 《电脑知识与技术》 2021年第13期3-5,共3页 Computer Knowledge and Technology
基金 2020年辽宁省一流学科教育学建设项目(SNUJYX2020040402)。
关键词 大数据 网络爬虫 scrapy框架 数据采集 big data web crawler scrapy framework data acquisition
  • 相关文献

参考文献7

二级参考文献122

  • 1王媛媛,丁毅,孙媛媛,赵志丹.数据可视化技术的实现方法研究[J].现代电子技术,2007,30(4):71-74. 被引量:34
  • 2李凌燕.OLAP系统中多维数据可视化的实现[J].现代电子技术,2007,30(10):142-145. 被引量:2
  • 3工业和信息化部.《物联网“十二五”发展规划》发布[EB/OL].http://WWW.miit.gov.cn/n11293472/n11293832/n12771663/14473808.html.
  • 4刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量:131
  • 5涂子沛.大数据[M].桂林:广西师范大学出版社.2012.
  • 6维基百科.云计算[EB/OL].2012-10-31http://zh.wikipedia.org/wiki/云计算.
  • 7维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].杭州:浙江人民出版社,2013:5-25.
  • 8高勇.啤酒与尿布[M].北京:清华大学出版社,2008.
  • 9NAISBITT J. Megatrends: Ten new directions transfor- ming our iive[M]. New York: Warner Books, 1982: 40 - 42.
  • 10阿尔文·托勒夫.第三次浪潮[M].黄明坚译.北京:中信出版社,2006:19-25.

共引文献593

同被引文献37

引证文献7

二级引证文献13

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部