基于Python的三种网络爬虫技术研究被引量：12

Research on Three Web Crawler Technologies based on Python

下载PDF

导出

摘要针对网络爬虫技术选型较多,影响抓取效率和准确性的问题,对基于Python语言的Requests、Scrapy和Selenium三种主流爬虫技术进行分析。首先,安装配置开发环境,完成单线程和多线程爬虫软件开发;其次,爬取“站长之家”网站10页、100页、500页和1,000页简历数据,计算爬取时间;最后,通过爬取“中国裁判文书网”中的数据验证突破反爬虫机制的能力。实验结果表明,Requests爬虫使用一行代码就能实现数据爬取,开发定制灵活;Scrapy爬虫技术平均每页的抓取时间为0.02 s,并发性能突出;Selenium爬虫技术破解网站反爬虫机制能力强。因此,开发网络爬虫技术要综合考虑业务需求和技术特点,只有这样,才能达到最佳的数据抓取效果。 As there are many types of web crawler technologies,which affect the efficiency and accuracy of crawling,this paper proposes to analyze three mainstream crawler technologies based on Python:Requests,Scrapy and Selenium.Firstly,the development environment is installed and configured to complete the development of single threaded and multithreaded crawler software.Secondly,the three crawlers crawl 10,100,500 and 1,000 pages of resume data from the"Home of Webmasters",and the crawling time is calculated.Finally,the ability to break through the anti-crawler mechanism is verified by crawling the data on the website of"China Judgements Online".The results show that Requests crawler technology uses one line of code to achieve data crawling,and the development and customization are flexible.The average crawling time per page of Scrapy crawler technology is 0.02 seconds,and its concurrency performance is outstanding.Selenium crawler technology has strong ability to crack website anti-crawler mechanism.Therefore,the development of web crawler technology should comprehensively consider the business needs and technical characteristics.Only in this way can the best data grabbing effect be achieved.

作者杨健陈伟 YANG Jian;CHEN Wei(Zhuji Public Security Bureau,Shaoxing 311800,China)

机构地区诸暨市公安局

出处《软件工程》 2023年第2期24-27,19,共5页 Software Engineering

关键词网络爬虫 Requests技术 Scrapy技术 Selenium技术 web crawler Requests Scrapy Selenium

分类号 TP302.7 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献7

1杜鹏辉,仇继扬,彭书涛,柴沣伟,刘意先.基于Scrapy的网络爬虫的设计与实现[J].电子设计工程,2019,27(22):120-123. 被引量：22
2夏火松,李保国.基于Python的动态网页评价爬虫算法[J].软件工程,2016,19(2):43-46. 被引量：20
3云洋.基于Python的图片爬虫程序设计[J].电子技术与软件工程,2018(17):241-242. 被引量：7
4刘灿,任剑宇,李伟,张强强.面向个性化推荐的教育新闻爬取及展示系统[J].软件工程,2018,21(2):38-40. 被引量：8
5潘洪涛.一种多源统一爬虫框架的设计与实现[J].软件工程,2021,24(4):30-33. 被引量：2
6李培.基于Python的网络爬虫与反爬虫技术研究[J].计算机与数字工程,2019,47(6):1415-1420. 被引量：47
7许景贤,林锦程,程雨萌.Selenium框架的反爬虫程序设计与实现[J].福建电脑,2021,37(1):26-29. 被引量：4

二级参考文献52

1方美玉,郑小林,陈德人,华艺,施艳.商品评论聚焦爬虫算法设计与实现[J].吉林大学学报（工学版）,2012,42(S1):377-381. 被引量：10
2PENG Tao HE Fengling ZUO Wanli.A New Framework for Focused Web Crawling[J].Wuhan University Journal of Natural Sciences,2006,11(5):1394-1397. 被引量：2
3曾伟辉,李淼.深层网络爬虫研究综述[J].计算机系统应用,2008,17(5):122-126. 被引量：36
4刘正春.基于Carbide.C++的Symbian OS软件开发[J].电脑与电信,2009(1):47-49. 被引量：2
5刘建国,周涛,汪秉宏.个性化推荐系统的研究进展[J].自然科学进展,2009,19(1):1-15. 被引量：427
6周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29. 被引量：88
7陈一峰,赵恒凯,余小清,万旺根.基于遗传算法的主题爬虫策略改进[J].计算机仿真,2010,27(10):87-90. 被引量：4
8漆志辉,杨天奇.网络爬虫性能研究[J].微型机与应用,2011,30(5):72-74. 被引量：3
9王永固,邱飞岳,赵建龙,刘晖.基于协同过滤技术的学习资源个性化推荐研究[J].远程教育杂志,2011,29(3):66-71. 被引量：47
10于成龙,于洪波.网络爬虫技术研究[J].东莞理工学院学报,2011,18(3):25-29. 被引量：21

共引文献97

1姚万勤,宋俊豪.在技术与法律之间:网络爬虫刑法规制的边界[J].法治论坛,2023(1):3-17.
2雍龙泉,贾伟,张建科.基于爬虫技术与智能算法的网络舆情监测[J].智能计算机与应用,2021,11(4):35-38. 被引量：3
3李乔宇,尚明华,王富军,刘淑云.基于Scrapy的农业网络数据爬取[J].山东农业科学,2018,50(1):142-147. 被引量：12
4夏玉芹,单雪微.基于Python的简单文本情感分析[J].阴山学刊（自然科学版）,2018,32(4):58-62. 被引量：14
5叶宇翔.抽取自媒体新闻热词的技术实现[J].电脑知识与技术,2018,14(6Z):14-16. 被引量：1
6胡春玲,吕刚.互联网资源的虚拟OJ系统的研究[J].合肥学院学报（综合版）,2017,34(5):80-83.
7孙雨皓,夏斌,谢宏.基于Django框架的商品排名监控系统设计[J].现代计算机（中旬刊）,2018(7):85-90.
8高宠,赵丹丹,白哓宇,张金金,毕瑞,徐俊婷.豆瓣影评网络数据爬虫设计与实现[J].中国高新科技,2018(15):88-90. 被引量：1
9王家辉,过弋,文欣秀,万锋.面向智慧商圈的多源数据采集与综合评价系统[J].计算机工程,2019,45(1):284-291. 被引量：5
10王金峰,李世良,王明,罗星宇,张雪玉.基于Python的关于Flickr图片网站的爬虫[J].中小企业管理与科技,2019,3(2):182-183. 被引量：4

同被引文献66

1周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
2潘梁静.基于ASP.NET的校园论坛网站的设计[J].科技信息,2010(36):223-223. 被引量：1
3李渺,宁连华.数学教学内容知识(MPCK)的构成成分表现形式及其意义[J].数学教育学报,2011,20(2):10-14. 被引量：91
4曾浩.基于Python的Web开发框架研究[J].广西轻工业,2011,27(8):124-125. 被引量：8
5刘俊艳,钱存元.上海国产化A型地铁列车乘客信息系统[J].城市轨道交通研究,2011,14(9):108-111. 被引量：4
6何克抗.TPACK——美国“信息技术与课程整合”途径与方法研究的新发展(下)[J].电化教育研究,2012,33(6):47-56. 被引量：309
7唐四化.基于ASP的校园论坛设计与实现[J].电脑编程技巧与维护,2014(24):25-25. 被引量：1
8杜丹阳,王金城,刘全利.列车乘客信息系统远程配置维护研究及应用[J].江南大学学报（自然科学版）,2014,13(6):662-667. 被引量：2
9夏火松,李保国.基于Python的动态网页评价爬虫算法[J].软件工程,2016,19(2):43-46. 被引量：20
10孙立伟,何国辉,吴礼发.网络爬虫技术的研究[J].电脑知识与技术（过刊）,2010,0(15):4112-4115. 被引量：132

引证文献12

1姜庆玲,张樊.基于Python与Requests模块的网络图片爬虫程序设计[J].电脑编程技巧与维护,2023(6):59-61.
2徐正雄,刘辉,李思琳,雷姣惠,李捷波,肖文博.阳光采购平台数据自动采集信息系统设计与实现[J].电脑编程技巧与维护,2023(6):106-108.
3姜庆玲,张樊.基于Python和Requests快速获取网页数据的方法研究[J].现代信息科技,2023,7(16):100-103.
4龚建生,许丽金.基于Python和Qt的车载乘客信息系统设备状态检测平台[J].设备管理与维修,2023(21):147-149.
5万好,谢叶康,段志应.基于文本挖掘的计算机类招聘数据分析与可视化系统设计[J].电脑与电信,2023(8):29-35.
6张豪,朱石磊,胡建华,杨洁.基于B/S架构的校园论坛系统的设计与实现[J].电脑知识与技术,2023,19(33):32-35. 被引量：1
7顾梦娇,那孜古力·斯拉木,钟青阳,汪世宇,赵鸿博,马文涛.面向智慧消防的数据采集及分析系统的设计与实现[J].电脑知识与技术,2023,19(34):66-70.
8代子正,鲁程逸,王艳红,潘彬涛.基于Python的商品信息及评论研究[J].内蒙古科技与经济,2024(1):117-120.
9陈太沁.基于Python的视频数据爬虫系统设计与实现[J].广播电视网络,2024,31(1):110-112.
10王晨.基于Python爬虫的豆瓣书籍数据分析和可视化[J].信息与电脑,2023,35(23):174-176.

二级引证文献1

1何永太.前后端分离模式下的水法练考系统的分析与设计[J].电脑知识与技术,2024,20(6):33-36.

1孙悦.生命不息,寻子不止[J].北方人,2022(22):54-55.
2刘贵丽.人工智能在超高清新媒体内容生产和运营的落地[J].广播电视信息,2023,30(1):39-39.
3吴嘉兴,王玉龙,孙美凤.面向科研统计的机构发表论文数据的爬取——以知网为例[J].软件,2022,43(12):31-35. 被引量：1
4吴君胜.基于网络爬虫技术的开放大学智慧图书馆信息资源系统的设计与研究[J].广州广播电视大学学报,2022,22(6):58-62. 被引量：2
5王建梅.以信息素养培养为导向的高中Python语言教学策略探究[J].中小学电教（综合）,2022(11):61-63.
6马丽,庞秀岚,付少杰,李晓峰.并网光伏发电系统配置储能技术选型研究[J].机电信息,2023(1):82-85. 被引量：5
7毕璐.基于区块链的网络安全漏洞检测系统设计[J].信息与电脑,2022,34(20):149-151.
8王世奇.论社会主义核心价值观在裁判文书说理中的融入[J].河北工程大学学报（社会科学版）,2022,39(4):90-97.
9杨玉燕.探索利用Python设计财务RPA[J].财会学习,2023(1):17-19.
10王亚彬,黎志伟,李长江,戴雅琪,何芬芳,郑国栋,杨丽聪.不同表面修饰纳米硒在模拟胃肠消化中稳定性及抗氧化活性变化[J].食品与发酵工业,2023,49(1):53-59.

软件工程

2023年第2期

浏览历史

内容加载中请稍等...

基于Python的三种网络爬虫技术研究被引量：12

参考文献7

二级参考文献52

共引文献97

同被引文献66

引证文献12

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Python的三种网络爬虫技术研究 被引量：12

参考文献7

二级参考文献52

共引文献97

同被引文献66

引证文献12

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Python的三种网络爬虫技术研究被引量：12