基于Python和Scrapy框架的网页爬虫设计与实现被引量：7

Design and Implementation of Web Crawler Based on Python and Scrapy

下载PDF

导出

摘要针对不同的网页数据环境设计有效的爬虫方案,更加有助于爬取信息的准度和效度。文中以Python及其Scrapy框架为基础,以贝壳网为例,通过对网站的页面源码结构进行深入分析,编写了行之有效的爬虫文件来获取目标网站信息。该设计方法可以应用到不同的多级页面信息类型网站,为基于Web的数据分析提供策略采集和分析支持。 Designing effective crawling strategies for different network data environments can enhance the accuracy and validity of crawling information.Taking Bakclass.com as an example,this paper analyzes the structure of the source code of the website page based on Python and its Scrapy framework environment,and then composes effective crawler files to obtain target website information.Targeting the type of different multi-level information websites,this designing method supports network data analysis based on Web by acquiring and analyzing strategies.

作者陈皓周传生 CHEN Hao;ZHOU Chuan-sheng(Network and Information Center,Shenyang Normal University,Shenyang 110034,China)

机构地区沈阳师范大学网络信息中心

出处《电脑知识与技术》 2021年第13期3-5,共3页 Computer Knowledge and Technology

基金 2020年辽宁省一流学科教育学建设项目(SNUJYX2020040402)。

关键词大数据网络爬虫 scrapy框架数据采集 big data web crawler scrapy framework data acquisition

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献7

1王芳.基于Python的招聘网站信息爬取与数据分析[J].信息技术与网络安全,2019,38(8):42-46. 被引量：18
2谢克武.大数据环境下基于python的网络爬虫技术[J].电子制作,2017,25(9):44-45. 被引量：50
3杜雷,辛阳.基于规则库和网络爬虫的漏洞检测技术研究与实现[J].信息网络安全,2014(10):38-43. 被引量：11
4杜鹏辉,仇继扬,彭书涛,柴沣伟,刘意先.基于Scrapy的网络爬虫的设计与实现[J].电子设计工程,2019,27(22):120-123. 被引量：22
5温佐承,侯帅.基于Python的网络爬虫设计与实现[J].电脑编程技巧与维护,2020(7):21-23. 被引量：2
6柴唤友,刘三女牙,康令云,张雅娴,李卿,刘智.教育大数据采集机制与关键技术研究[J].大数据,2020,6(6):14-25. 被引量：24
7刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报（工学版）,2014,48(6):957-972. 被引量：475

二级参考文献122

1王媛媛,丁毅,孙媛媛,赵志丹.数据可视化技术的实现方法研究[J].现代电子技术,2007,30(4):71-74. 被引量：34
2李凌燕.OLAP系统中多维数据可视化的实现[J].现代电子技术,2007,30(10):142-145. 被引量：2
3工业和信息化部.《物联网“十二五”发展规划》发布[EB/OL].http://WWW.miit.gov.cn/n11293472/n11293832/n12771663/14473808.html.
4刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：131
5涂子沛.大数据[M].桂林:广西师范大学出版社.2012.
6维基百科.云计算[EB/OL].2012-10-31http://zh.wikipedia.org/wiki/云计算.
7维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].杭州:浙江人民出版社,2013:5-25.
8高勇.啤酒与尿布[M].北京:清华大学出版社,2008.
9NAISBITT J. Megatrends: Ten new directions transfor- ming our iive[M]. New York: Warner Books, 1982: 40 - 42.
10阿尔文·托勒夫.第三次浪潮[M].黄明坚译.北京:中信出版社,2006:19-25.

共引文献593

1魏炳华.大数据视角下互联网金融发展的机遇与挑战探讨[J].时代金融,2020(24):5-6.
2程啸.区块链技术视野下的数据权属问题[J].现代法学,2020,42(2):121-132. 被引量：49
3蒋云钟,冶运涛,赵红莉,梁犁丽,曹引,顾晶晶.水利大数据研究现状与展望[J].水力发电学报,2020,39(10):1-32. 被引量：81
4徐拥军.大数据时代国家治理中的文化生产与文化整合[J].求索,2021(3):126-134. 被引量：15
5王宏伟,张翠敏,宋嘉祺,王泽亮,潘艳.煤岩体裂隙结构形态和力学属性的可视化数据库构筑初探[J].煤炭科学技术,2023,51(S01):27-39.
6睢苏婕.个人健康医疗信息保护视阈下的数据可携权构建[J].私法研究,2021(1):201-213.
7王剑刚,王扬,钱常运.面向IDC工程的知识管理及图谱技术研究——以东岳庙数据中心为例[J].建筑经济,2022,43(S01):893-897. 被引量：1
8刘泳奇,吴环宇,陈珂.智能建造技术在工程造价管理中的应用研究综述[J].建筑经济,2022,43(S01):245-252. 被引量：23
9王亮.基于大数据分析的可视化技术[J].电子技术（上海）,2020(9):74-75. 被引量：3
10项博良,唐淳淳,钱前,曹健东.基于网络爬虫的就业数据分析[J].智能计算机与应用,2020,10(1):223-226. 被引量：4

同被引文献37

1刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600. 被引量：911
2赵本本,殷旭东,王伟.基于Scrapy的GitHub数据爬虫[J].电子技术与软件工程,2016(6):199-202. 被引量：18
3熊畅.基于Python爬虫技术的网页数据抓取与分析研究[J].数字技术与应用,2017,35(9):35-36. 被引量：48
4李直旭,何芙珍,刘安.多模态教学知识图谱的构建与应用[J].福建电脑,2019,35(8):5-8. 被引量：10
5鲁丰玲.基于Scrapy的招聘信息爬虫设计与实现[J].科技资讯,2019,17(20):7-10. 被引量：4
6杜鹏辉,仇继扬,彭书涛,柴沣伟,刘意先.基于Scrapy的网络爬虫的设计与实现[J].电子设计工程,2019,27(22):120-123. 被引量：22
7张连刚,陈卓,李娅,谢彦明.农民合作社研究的多维度特征与发展态势分析——基于1992～2019年国家社科和自科基金项目的实证研究[J].中国农村观察,2020,0(1):126-140. 被引量：18
8李玉香,王孟玉,涂宇晰.基于python的网络爬虫技术研究[J].信息技术与信息化,2019,0(12):143-145. 被引量：19
9刘娴,刘泽骁,荀丽丹.基于Node.js技术的报表信息管理平台设计与实现[J].无线互联科技,2019,16(24):51-52. 被引量：1
10郭锋锋.基于python的网络爬虫研究[J].佳木斯大学学报（自然科学版）,2020,38(2):62-65. 被引量：13

引证文献7

1李华昱,付亚凤,闫阳,李家瑞.基于LEBERT的多模态领域知识图谱构建[J].计算机系统应用,2022,31(11):79-90. 被引量：2
2熊国梁,麦强盛.基于Python的国家社科基金项目爬虫的设计和实现——以贫困为主题的立项信息为例[J].信息与电脑,2021,33(9):181-184.
3汪邦博,胡必波,李满,刘丝雨,刘晓莉.基于Scrapy的大数据学情分析系统就业岗位数据爬取[J].电脑编程技巧与维护,2021(11):92-93. 被引量：5
4方锦文,童桦茜.基于Scrapy的招生信息专题搜索引擎研究[J].电子制作,2021,29(24):53-55.
5方锦文,许潼歆,何晋乐.高校信息整合平台前端设计与实现[J].信息与电脑,2022,34(8):111-113. 被引量：1
6杨孟姣,杜棋东.基于Python爬虫网站数据分析系统设计与实现[J].计算机时代,2022(11):81-83. 被引量：5
7郑灿伟,贺丹,罗嘉惠,李琼娜,潘泽松,钟颖棋.基于Scrapy框架的互联网招聘信息可视化技术研究[J].科技与创新,2024(6):6-10.

二级引证文献13

1宋一帆,宛楠,胡倩,孙茂鑫,谭文杰.第三方网课平台评价系统的设计与实现[J].福建电脑,2022,38(5):78-82.
2张振寰.基于大数据面向就业岗位招聘的数据分析[J].科技资讯,2022,20(12):228-231.
3辛志杰.基于模糊聚类的企业人力资源信息自动整合系统[J].自动化与信息工程,2022,43(5):35-39. 被引量：5
4李寒阳.基于数据挖掘技术的海量企业运营数据智能分析系统设计[J].信息与电脑,2022,34(18):112-114. 被引量：3
5苏明焱.基于Python的招聘网站信息的爬取与数据分析[J].信息与电脑,2022,34(24):193-195. 被引量：2
6何芳.基于Scrapy的电子商务数据分析系统设计[J].电子技术与软件工程,2022(24):200-204.
7成海民,付桂琴,贾俊妹,刘瑜珊.数字科技馆智能管理系统设计[J].现代电子技术,2023,46(22):165-169.
8王姣姣,顾珅,赵淼,周怡杰.基于FineBI的招聘信息数据分析与可视化研究[J].计算机时代,2023(12):15-18. 被引量：1
9何巍.社交网络舆情多模态知识图谱构建框架研究[J].情报杂志,2024,43(1):160-166. 被引量：1
10Hui LIANG,Tianwen SONG,Yun XIAN.Design and Implementation of Wuzhou Meteorological Statistical Yearbook System Based on Python[J].Meteorological and Environmental Research,2023,14(6):23-28.

1刘晨昱.基于区块链的网站信息安全防护策略[J].电子技术与软件工程,2021(6):250-251. 被引量：1
2赵毅菲.新冠疫情期间省级公共图书馆微信公众平台信息服务研究[J].图书馆学刊,2021,43(4):78-84. 被引量：2
3王娜,董焕晴.用户参与的在线旅游网站信息本体构建研究——以马蜂窝在线旅游网站为例[J].现代情报,2021,41(6):64-75. 被引量：4
4刘昭,何赏璐,刘英舜.基于社交网络数据的交通突发事件识别方法[J].交通信息与安全,2021,39(2):53-60. 被引量：5

电脑知识与技术

2021年第13期

浏览历史

内容加载中请稍等...

基于Python和Scrapy框架的网页爬虫设计与实现被引量：7

参考文献7

二级参考文献122

共引文献593

同被引文献37

引证文献7

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于Python和Scrapy框架的网页爬虫设计与实现 被引量：7

参考文献7

二级参考文献122

共引文献593

同被引文献37

引证文献7

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于Python和Scrapy框架的网页爬虫设计与实现被引量：7