基于Scrapy的研招网硕士目录爬虫的设计与实现被引量：3

下载PDF

导出

摘要研招网作为中国最大的研究生招考信息公布平台,资源丰富。目前主流的爬虫框架有Scrapy、pyspider与crawley,其中Scrapy为目前最流行的爬虫框架。因此,文中主要研究Python语言开发的开源爬虫框架Scrapy所开发的爬虫,对研招网硕士目录进行爬取,举例说明爬虫如何应对网站的反爬措施。

作者伍高巍刘杰葛晓龙徐望成

机构地区南华大学计算机学院

出处《电脑知识与技术》 2022年第17期53-55,共3页 Computer Knowledge and Technology

基金 2020年湖南省大学生实践创新训练项目:校园东街微信小程序的设计与开发(项目编号:S202010555141)。

关键词网络爬虫 Scrapy PYTHON 反反爬研招网

分类号 TP311.11 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1刘宇,郑成焕.基于Scrapy的深层网络爬虫研究[J].软件,2017,38(7):111-114. 被引量：29
2刘世涛.简析搜索引擎中网络爬虫的搜索策略[J].阜阳师范学院学报（自然科学版）,2006,23(3):59-62. 被引量：15
3陈辉.基于SCRAPY框架的网络爬虫封锁技术破解研究[J].科技视界,2020,0(6):224-225. 被引量：1
4韩贝,马明栋,王得玉.基于Scrapy框架的爬虫和反爬虫研究[J].计算机技术与发展,2019,29(2):139-142. 被引量：26
5郑岚.Python访问MySQL数据库[J].电脑编程技巧与维护,2010(6):59-61. 被引量：13

二级参考文献27

1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
2郑冬冬,崔志明.Deep Web爬虫爬行策略研究[J].计算机工程与设计,2006,27(17):3154-3158. 被引量：13
3http://zh.wikipedia.org/wiki/Python.
4www.mysql.com.
5www.python.org.
6http://mysql-python.sourceforge.net/MySQLdb.html.
7[2]Michelangelo Diligenti,Frans Coetzee,Steve Lawrence,et al.Focused Crawling using Context Graphs[J],Intemational Conference on Very Large Databases.2002,(26):527-534.
8黄萱菁,吴立德.独立于语种的文本分类方法[J].2000 International Conference on Multilingual Information Processing,2000,:37-43.
9鲁松,白硕.文本中词语权重计算方法的改进[J].2000 International Conference on Multilingual Information Proeessing,2000,:31-36.
10[5]Google 的 PageRank 算法[EB/OL].[2003-12-18].http://blog.xdanger.com/archives/2003/12/18/000046.html.

共引文献76

1邓子云.基于Scrapy的网站增量式爬取功能的研制与应用[J].湖南工业职业技术学院学报,2022,22(6):25-29.
2王岩.搜索引擎中网络爬虫技术的发展[J].电信快报（网络与通信）,2008(10):20-22. 被引量：11
3赵宏中,李亚.垂直搜索引擎应用研究[J].现代商贸工业,2010,22(4):285-286. 被引量：3
4蔡笑伦.网络爬虫技术的发展趋势[J].科技信息,2010(12):26-26. 被引量：3
5梅松.政府网络舆情监控系统的实现[J].信息技术,2011,35(9):135-138. 被引量：4
6陈悦,陈运,杨义先,胡迪.基于遗传算法的聚焦爬虫搜索策略设计与研究[J].成都信息工程学院学报,2011,26(5):533-537. 被引量：3
7张超,闫宏印.多线程网络爬虫的设计与实现[J].电脑开发与应用,2012,25(6):65-67. 被引量：3
8刘丽杰,许楠,李盼池.基于自适应免疫进化算法的聚焦爬虫搜索策略[J].黑龙江八一农垦大学学报,2012,24(4):61-64. 被引量：1
9李耀华,杨海燕.论网络爬虫搜索策略[J].山西广播电视大学学报,2013,18(2):48-50. 被引量：2
10赵志升,张晓,马腾.Java与Python整合方案的研究与实现[J].网络安全技术与应用,2015(1):146-146. 被引量：2

同被引文献16

1涂辉,王锋,商庆伟.Python3编程实现网络图片爬虫[J].电脑编程技巧与维护,2017(23):21-22. 被引量：10
2曾晓娟.基于Python爬虫技术的应用[J].办公自动化,2018,23(20):62-64. 被引量：5
3王金峰,李世良,王明,罗星宇,张雪玉.基于Python的关于Flickr图片网站的爬虫[J].中小企业管理与科技,2019,3(2):182-183. 被引量：4
4唐婷.基于Python的网络图片爬虫技术[J].信息与电脑,2020,32(18):176-178. 被引量：3
5张小秋.基于Scrapy框架的网络爬虫分析与抓取实现[J].电脑编程技巧与维护,2022(2):18-19. 被引量：10
6王嘉宝,雒伟群.基于Scrapy框架的电影数据爬取和可视化分析[J].西藏科技,2022(2):64-68. 被引量：6
7黄禹,兰洋,张玥,胡家全,黄粲.基于Scrapy的开源核情报采集系统构建[J].科技视界,2022(17):1-7. 被引量：1
8史媛.基于Scrapy框架爬取豆瓣图书的设计与实现[J].山西电子技术,2022(4):75-77. 被引量：3
9赵蔷.基于Python爬虫的旅游网站数据分析与可视化[J].电子设计工程,2022,30(16):152-155. 被引量：7
10魏海昱,林伟鸿,贺超波.基于Scrapy的食品安全舆情数据爬取与分析[J].现代计算机,2022,28(14):49-54. 被引量：5

引证文献3

1姜庆玲,张樊.基于Python与Requests模块的网络图片爬虫程序设计[J].电脑编程技巧与维护,2023(6):59-61.
2姜庆玲,张樊.基于Python和Requests快速获取网页数据的方法研究[J].现代信息科技,2023,7(16):100-103. 被引量：2
3赵鹏,苏楠,于慧霞.基于Scrapy的高性能网站状态批量采集系统[J].中国新通信,2023,25(13):48-50.

二级引证文献2

1崔梦银,邓茵,刘满意.Python爬虫技术在学术聚合系统中的应用[J].现代信息科技,2024,8(10):68-74.
2刘国权,陈强,王璐,陈子欣,魏勇,甘如饴.基于Python的动液面测控软件开发[J].石油管材与仪器,2024,10(4):87-91.

1李荣.非全日制专业硕士研究生教育面临的问题及对策[J].继续教育研究,2021(3):139-142. 被引量：8
2李军,吴海涛,单铁成.考生权益视角下研究生招考制度运行困境研究[J].现代大学教育,2021,37(6):92-100. 被引量：5
3林煌涛.硕士研究生招生考试自命题工作质量提升研究[J].教师,2022(5):9-11. 被引量：1
4发布[J].公民与法（综合版）,2022(2):54-54.
5陈涛,白中英.我国博士招生“申请考核”制改革的反思与重构[J].高校教育管理,2021,15(1):29-37. 被引量：7
6张春颖,任常瑞.官网政府公开信息质量的实证研究[J].长春大学学报,2022,32(5):17-23. 被引量：2
7刘卓敏.采煤机滚筒系带布置方式的结构优化设计研究[J].机械管理开发,2022,37(7):275-277. 被引量：1
8谢玉韬,徐剑,李庆英.“对拍”方法在程序验证中的应用[J].电脑知识与技术,2022,18(18):45-47.
9田浩杰,杨晓庆,翟晓雨.基于深度学习的线圈炮缺陷自动检测与分类[J].现代计算机,2022,28(10):86-91. 被引量：2
10于世雷,冯黎莉,孙康.基于2D GIS的煤矿风险分级管控与隐患排查治理可视化管理[J].陕西煤炭,2022,41(4):142-146. 被引量：2

电脑知识与技术

2022年第17期

浏览历史

内容加载中请稍等...

基于Scrapy的研招网硕士目录爬虫的设计与实现被引量：3

参考文献5

二级参考文献27

共引文献76

同被引文献16

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于Scrapy的研招网硕士目录爬虫的设计与实现 被引量：3

参考文献5

二级参考文献27

共引文献76

同被引文献16

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于Scrapy的研招网硕士目录爬虫的设计与实现被引量：3