基于Python的网络爬虫与反爬虫技术研究被引量：48

Research on Python-based Web Crawler and Anti-reptile Technology

下载PDF

导出

摘要论文主要为网络爬虫的设计及实现、反爬虫技术的实现及相关技术的研究。通过研究目标网站爬虫门槛的协商及通过的条件,及反爬虫相关技术及最新发展。基于Python设计及实现一个完整的网络爬虫,最终完成了对目标网站所有文章数据的提取和存储,并借助对实验室内部网站的测试并实现了绕过反爬虫及反爬虫技术的研究,并对网络爬虫及反爬虫技术进行了理论说明和发展展望。 This paper is mainly about the design and implementation of Web crawler,the implementation of anti reptile technology and related technology research. Through the study of target website crawler threshold negotiation and pass conditions,and anti reptile related technology and latest development,based on Python,a complete web crawler is designed and implemented. Finally,all the data of the target website are extracted and stored,and the research on the anti reptilian and anti reptilian technology is realized by the test with the web site of the laboratory. The theory and development trend of web crawler and anti crawler technology are also explained.

作者李培 LI Pei(School of Computer Science & Technology,Xi'an University of Posts & Telecommunications,Xi'an 710121;Shaanxi Provincial Key Laboratory of Network Data Analysis and Intelligent Processing,Xi'an University of Posts & Telecommunications,Xi'an 710121)

机构地区西安邮电大学计算机学院西安邮电大学陕西省网络数据智能处理重点实验室

出处《计算机与数字工程》 2019年第6期1415-1420,1496,共7页 Computer & Digital Engineering

基金国家自然科学基金项目(编号:61105064) 陕西省自然科学基础研究计划项目(编号:2016JM6085) 陕西省教育厅科学研究计划项目“基于文本挖掘的网络社区情感倾向研究”(编号:17JK0687) 陕西省普通高等学校重点学科专项资金建设项目资助

关键词网络爬虫 Scrapy框架反爬虫 Web crawler Scrapy frame anti reptile

分类号 TN711 [电子电信—电路与系统]

引文网络
相关文献

参考文献7

1漆志辉,杨天奇.网络爬虫性能研究[J].微型机与应用,2011,30(5):72-74. 被引量：3
2罗平,陆红梅,施威,夏斌.基于Scrapy的商品评价获取系统设计[J].微型机与应用,2017,36(19):12-15. 被引量：7
3李代祎,谢丽艳,钱慎一,吴怀广.基于Scrapy的分布式爬虫系统的设计与实现[J].湖北民族学院学报（自然科学版）,2017,35(3):317-322. 被引量：15
4陈利婷.大数据时代的反爬虫技术[J].电脑与信息技术,2016,24(6):60-61. 被引量：21
5鲁萍.带你进入网络爬虫与反爬虫的世界[J].软件和集成电路,2016(12):12-13. 被引量：3
6陆文.十分钟解决爬虫问题超轻量级反爬虫方案[J].计算机与网络,2017,43(17):58-60. 被引量：1
7邹科文,李达,邓婷敏,李嘉振,陈义明.网络爬虫针对“反爬”网站的爬取策略研究[J].电脑知识与技术,2016,0(3):61-63. 被引量：15

二级参考文献26

1Zuo Xiaojun, Zhang Kaituo. An improved search algorithm of focused crawler in vertical search engine [C]. Asia-Pacific Youth Conference On Communication Technology2010 (APYCCT 2010), 2010: 509-513.
2Ju Xiaolin, Chen Jihong, Shao Haoran. Hierarchical Web page classification method based on vector space model[C].Journal of Nantong University (Natural Science Edition), 2010.
3Yang Shengyuan. A focused crawler with ontology-supported website models for information agents [C]. Advances in Grid and Pervasive Computing, 2010:522-532.
4LI Jun, FURUSE K, YAMAGUCHI K. Focused crawling by exploiting anchor text using decision tree [C]. Proceedings of the 14th International World Wide Web Conference, 2005: 1190-1191.
5CHEN Y. A novel hybrid focused crawling algorithm to build domain-specific collections[D]. Ph.D. Thesis, Virginia Polytechnic Institute and State University, 2007.
6STEINBACH M, KARYPIS G, KUMAR V. A comparison of document clustering techniques [C]. Sixth ACM SIGKDD, World Text Mining Conference, Boston, MA, 2000.
7UDDIN M Z, LEE J J, KIM T S. Independent shape component-based human activity recognition via Hidden Markov Model[J]. Applied Intelligence, 2010,33(2) : 193-206.
8李勇,韩亮.主题搜索引擎中网络爬虫的搜索策略研究[J].计算机工程与科学,2008,30(3):4-6. 被引量：37
9刘庆杰,孙旭光,王小英.通过Filter抵御网页爬虫[J].网络安全技术与应用,2010(1):70-71. 被引量：5
10范纯龙,袁滨,余周华,徐蕾.基于陷阱技术的网络爬虫检测[J].计算机应用,2010,30(7):1782-1784. 被引量：4

共引文献52

1谈帅,唐天琪,高雅.网络众源地理信息获取与整合方法研究[J].现代测绘,2021(2):53-58.
2闫立达,薛朋强.基于匿名网络的网络爬虫设计与实现[J].现代计算机,2017,23(11):45-49. 被引量：4
3刘宇,程学林.基于决策树算法的爬虫识别技术[J].软件,2017,38(7):122-125. 被引量：4
4罗平,陆红梅,施威,夏斌.基于Scrapy的商品评价获取系统设计[J].微型机与应用,2017,36(19):12-15. 被引量：7
5尹子轩,王影,刘建宾.智学分享资源有效性检测工具设计与实现[J].软件导刊,2017,16(12):109-111.
6张即帅.基于爬虫技术的校园网络热点话题提取分类研究[J].自动化与仪器仪表,2018,0(3):90-92. 被引量：2
7张安启,罗批.基于Scrapy的微博爬虫设计[J].电子技术与软件工程,2018(13):187-189.
8余豪士,匡芳君.基于Python的反反爬虫技术分析与应用[J].智能计算机与应用,2018,8(4):112-115. 被引量：14
9华云彬,匡芳君.基于Scrapy框架的分布式网络爬虫的研究与实现[J].智能计算机与应用,2018,8(5):46-50. 被引量：11
10车力军,曹华平.基于自适应智能爬虫技术的网站备案安全态势感知平台设计[J].互联网天地,2018,0(5):33-37. 被引量：2

同被引文献278

1刘宪权.网络黑灰产上游犯罪的刑法规制[J].国家检察官学院学报,2021(1):3-17. 被引量：40
2汤银芬.《Python金融大数据分析》课程教学研究[J].时代金融,2021(5):82-84. 被引量：8
3周光权.侵犯公民个人信息罪的行为对象[J].清华法学,2021,15(3):25-40. 被引量：101
4王迁.立法修改视角下的技术措施保护范围[J].中外法学,2022,34(3):643-662. 被引量：7
5阮林赟.网络爬虫刑事违法的立场、标准和限制[J].河北法学,2021,39(7):173-187. 被引量：7
6项博良,唐淳淳,钱前,曹健东.基于网络爬虫的就业数据分析[J].智能计算机与应用,2020,10(1):223-226. 被引量：4
7程啸.论个人信息权益与隐私权的关系[J].当代法学,2022,36(4):59-71. 被引量：43
8吴明礼,施水才.一种结合超链接分析的搜索引擎排序方法[J].计算机工程,2004,30(15):143-145. 被引量：10
9周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
10刘严.多元线性回归的数学模型[J].沈阳工程学院学报（自然科学版）,2005,1(2):128-129. 被引量：77

引证文献48

1姚万勤,宋俊豪.在技术与法律之间:网络爬虫刑法规制的边界[J].法治论坛,2023(1):3-17.
2徐勤亚,楚士杰.基于Tableau的北京市房屋租赁市场现状分析[J].无线互联科技,2019,16(15):129-130.
3尤天琪,冯思毓,周陈雯淑,潘润超.电商数据的爬取及价格模型的建立[J].信息与电脑,2019,0(17):138-140.
4成文莹,李秀敏.基于Python的电影数据爬取与数据可视化分析研究[J].电脑知识与技术,2019,15(11):8-10. 被引量：14
5温娅娜,袁梓梁,何咏宸,黄猛.基于Python爬虫技术的网页解析与数据获取研究[J].现代信息科技,2020,4(1):12-13. 被引量：14
6赵俊杰,李思霖,孙博瑞,李梦浩.浅谈大数据环境下基于python的网络爬虫技术[J].中国新通信,2020,22(4):68-68. 被引量：6
7吴阳波,董昌谨.基于Python语言的图片爬虫程序设计研究[J].新一代信息技术,2019,2(22):46-52. 被引量：1
8钟机灵.基于Python网络爬虫技术的数据采集系统研究[J].信息通信,2020(4):96-98. 被引量：26
9叶炼炼,林扬武.基于海洋水产大数据价格分析预测系统的研究[J].无线互联科技,2020,17(11):38-39.
10杨登,袁芳.基于Python爬虫的数据分析[J].中国新通信,2020,22(18):76-77. 被引量：4

二级引证文献152

1张忆然.滥用已公开个人信息行为的刑法规制[J].中国刑事法杂志,2023(6):87-103.
2高生华,何济武,胡素臻,赵雪.面向遗留系统的数据采集方法[J].网络安全与数据治理,2023,42(S02):156-160.
3任芳,王鹏,郑贵省,郭强.网络数据获取与可视化教学项目设计实施[J].军事交通学报,2022(7):64-67.
4姚万勤,宋俊豪.在技术与法律之间:网络爬虫刑法规制的边界[J].法治论坛,2023(1):3-17.
5张苑,祝小兰,杨东晓.基于深度学习的疫情情感分析[J].智能计算机与应用,2022,12(3):40-45. 被引量：1
6欧阳本祺.论数据犯罪的双层法益[J].当代法学,2023,37(6):64-74. 被引量：3
7贾银生.流量造假犯罪刑法规制核心问题研究[J].当代法学,2023,37(2):88-99. 被引量：1
8曾诚.基于Python的网络爬虫及数据可视化和预测分析[J].信息与电脑,2020,32(9):167-169. 被引量：6
9居梓俊,邓居旺,孙建振,李东阳,黄翀鹏.基于Python和Hadoop的图书馆实时监控系统设计与实现[J].电脑编程技巧与维护,2020(8):20-22. 被引量：1
10管小卫.网络爬虫探讨及应用[J].科技创新与应用,2020(27):178-179. 被引量：3

1刘清.网络爬虫针对“反爬”网站的爬取策略分析[J].信息与电脑,2019,31(3):23-24. 被引量：10
2张鹏飞.浅析如何办好企业内部网站[J].东方企业文化,2018(A02):213-213.
3帥志嵩.也说“同义词”——读《古汉语同义词辨释论》札记[J].汉语史研究集刊,2004(1):487-496.
4李鑫欣,关菁华.基于Python的豆瓣读书网站用户信息采集[J].电脑知识与技术,2019,15(3Z):4-6. 被引量：1
5文轩宇.转让关键词遭遇诈骗陷阱[J].法治与社会,2019,0(3):34-35.
6饶绪黎,赵佳旭,陈志德.基于互联网数据的大数据人才需求调研及培养思考[J].工业技术与职业教育,2019,17(2):26-30. 被引量：10
7高永毅,李志高,付响云,邹代峰.振动时效效果评定的参数曲线观察法的理论说明[J].机械强度,2019,41(3):540-543. 被引量：2
8李恒凯,曹航,王秀丽,刘义.基于大数据分析的高校毕业生就业推荐模型研究[J].中国冶金教育,2019,0(3):93-97. 被引量：4

计算机与数字工程

2019年第6期

浏览历史

内容加载中请稍等...

基于Python的网络爬虫与反爬虫技术研究被引量：48

参考文献7

二级参考文献26

共引文献52

同被引文献278

引证文献48

二级引证文献152

相关作者

相关机构

相关主题

浏览历史

基于Python的网络爬虫与反爬虫技术研究 被引量：48

参考文献7

二级参考文献26

共引文献52

同被引文献278

引证文献48

二级引证文献152

相关作者

相关机构

相关主题

浏览历史

基于Python的网络爬虫与反爬虫技术研究被引量：48