网络爬虫反爬策略研究被引量：9

下载PDF

导出

摘要网络爬虫在工作时会对目标站点发送大量的请求,这样的爬虫工作方式决定了其会消耗不少目标站点的服务器资源,这对于一个服务器不大的中小型站点来说负载是巨大的,甚至会导致该站点直接崩溃。另外某些网站也不希望自己的内容被轻易的获取,如电商网站的交易额,这些数据是一个互联网产品的核心,因此采取一定的手段保护敏感的数据。因此很多网站都在站点中加入了反爬机制。例如User-Agent+Referer检测、账号登陆及Cookie验证等。文章讨论了几种主流的方法来避免爬虫被目标站点服务器封禁,从而保证爬虫的正常运行。 Web crawlers send a large number of requests to the target site when they work. this way of crawler work determines that it will consume a lot of server resources of the target site, which is a huge load for a small and medium-sized site with small and medium-sized servers. It can even cause the site to crash directly. In addition, some websites do not want their content to be easily accessed, such as the transaction volume of e-commerce websites, these data is the core of an Internet product, so take certain means to protect sensitive data. As a result, many sites have added anti-crawling mechanisms to their sites. For example, User-Agent + Referer detection, account login and Cookie verification. In this paper, several mainstream methods are discussed to avoid the crawler being blocked by the target site server, so as to ensure the normal operation of the crawler.

作者胡俊潇陈国伟

机构地区中国传媒大学

出处《科技创新与应用》 2019年第15期137-138,140,共3页 Technology Innovation and Application

关键词网络爬虫反爬虫抓取策略 Web crawler anti-crawler crawling strategy

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1逄菲.基于Python的分布式网络爬虫系统的设计与实现[J].电子技术与软件工程,2018(23):6-6. 被引量：11
2陈利婷.大数据时代的反爬虫技术[J].电脑与信息技术,2016,24(6):60-61. 被引量：21
3刘石磊.对反爬虫网站的应对策略[J].电脑知识与技术,2017,13(5X):19-21. 被引量：20
4王星,刘李敦.基于移动代理(Agent)的智能爬虫系统的设计和实现[J].科技资讯,2007,5(28):4-6. 被引量：1

二级参考文献8

1刘锦德,张云勇.一个实用的移动Agent系统(Aglet)的综述[J].计算机应用,2001,21(z1):1-3. 被引量：18
2[4]Volker Roth,Distributed image indexing and retrieval with mobile agents.IEE European Workshop on Distributed Imaging,1999,14:1-23.
3[5]Flickner M,Sawhney H.,Niblack W.,et al.Query by image and video content:the QBIC system.IEEE Computer,1995,28:23-32.
4张冠群,陶先平,李新,冯新宇,吕建.Mogent系统迁移机制的设计和实现[J].计算机研究与发展,2001,38(9):1035-1041. 被引量：12
5孙艺乘,张建敏.大数据数字媒体时代网络爬虫技术下的精准招商[J].贵州大学学报（自然科学版）,2017,34(2):80-84. 被引量：9
6孟军,覃海奎,刘洁,甘宇健.分布式网络爬虫设计研究[J].现代计算机,2017,23(16):62-65. 被引量：2
7刘泽华,赵文琦,张楠.基于Scrapy技术的分布式爬虫的设计与优化[J].信息技术与信息化,2018(2):121-126. 被引量：5
8高强.基于Redis的分布式爬虫框架的设计[J].农业网络信息,2017(8):12-14. 被引量：3

共引文献42

1谈帅,唐天琪,高雅.网络众源地理信息获取与整合方法研究[J].现代测绘,2021(2):53-58.
2刘宇,程学林.基于决策树算法的爬虫识别技术[J].软件,2017,38(7):122-125. 被引量：4
3张即帅.基于爬虫技术的校园网络热点话题提取分类研究[J].自动化与仪器仪表,2018,0(3):90-92. 被引量：2
4彭智鑫.基于Python的深度网络爬虫的设计与实现[J].信息记录材料,2018,19(8):140-141. 被引量：4
5张安启,罗批.基于Scrapy的微博爬虫设计[J].电子技术与软件工程,2018(13):187-189.
6毛逸恒.基于网络爬虫的网页信息获取技术[J].通讯世界,2018,25(6):11-12. 被引量：4
7华云彬,匡芳君.基于Scrapy框架的分布式网络爬虫的研究与实现[J].智能计算机与应用,2018,8(5):46-50. 被引量：12
8车力军,曹华平.基于自适应智能爬虫技术的网站备案安全态势感知平台设计[J].互联网天地,2018,0(5):33-37. 被引量：2
9胡海潮.基于新浪微博的爬虫程序设计与实现[J].无线互联科技,2018,15(9):40-42. 被引量：2
10刘清.网络爬虫针对“反爬”网站的爬取策略分析[J].信息与电脑,2019,31(3):23-24. 被引量：11

同被引文献58

1范海潮,顾理平.探寻平衡之道:隐私保护中知情同意原则的实践困境与修正[J].新闻与传播研究,2021(2):70-85. 被引量：43
2徐磊,郭旭.大数据时代读者个人信息保护的实践逻辑与规范路径——以图书类App隐私政策文本为视角[J].图书馆建设,2021(1):74-83. 被引量：33
3徐爱萍,欧阳红涛.GIS中文查询语句的表层语义识别算法研究[J].哈尔滨工业大学学报,2009,41(1):211-215. 被引量：1
4于成龙,于洪波.网络爬虫技术研究[J].东莞理工学院学报,2011,18(3):25-29. 被引量：23
5李慧敏,孙佳亮.论爬虫抓取数据行为的法律边界[J].电子知识产权,2018(12):58-67. 被引量：51
6邹科文,李达,邓婷敏,李嘉振,陈义明.网络爬虫针对“反爬”网站的爬取策略研究[J].电脑知识与技术,2016,0(3):61-63. 被引量：15
7杜磊.网络犯罪的特征与刑法规制路径[J].河北法学,2017,35(7):93-98. 被引量：18
8吴沈括,谢君泽.电信网络诈骗防治视野下伪基站犯罪治理[J].国家检察官学院学报,2017,25(6):50-66. 被引量：12
9彭兆军.网络防火墙内部数据过滤保护算法[J].微电子学与计算机,2017,34(11):131-134. 被引量：3
10欧阳本祺,曹莉.非法获取他人APP数据的刑法定性[J].人民检察,2018(7):37-40. 被引量：4

引证文献9

1伏康,杜振鹏.网站反爬虫策略的分析与研究[J].电脑知识与技术,2019,15(10):28-30. 被引量：6
2孙建言,马雨欣,武文杰.基于Python的网络爬虫系统[J].电脑知识与技术,2019,15(9Z):61-63. 被引量：2
3许桂敏,张转.非法获取公民个人信息行为的智化、解读与规制——基于技术的多维面向[J].中国人民公安大学学报（社会科学版）,2020,36(6):130-142. 被引量：12
4黄子豪,张舒.网络爬虫对互联网安全的影响及“反爬”策略的研究[J].科学技术创新,2021(10):120-121. 被引量：5
5刘晓魁.网络爬虫技术与策略分析[J].网络安全技术与应用,2022(5):17-19. 被引量：9
6郑文平.网络爬虫与爬虫对抗技术研究[J].电脑编程技巧与维护,2022(12):173-176. 被引量：5
7肖智铎,高俊华,王长园.基于语义识别和机器视觉的智能审核方法研究[J].中国汽车,2023(6):52-57. 被引量：1
8张炜羿.ChatGPT冲击下敏感个人信息的应对与保护[J].湖北经济学院学报（人文社会科学版）,2023,20(9):86-91.
9刘晓魁,肖树鹏.开放网络环境下的反爬虫技术研究[J].网络安全技术与应用,2024(7):19-22. 被引量：1

二级引证文献40

1李鲲程,费军旗,范春梅.基于Pyspider的网络爬虫架构的分析与优化[J].通信管理与技术,2022(6):9-12.
2江耀炜.电信网络诈骗治理中的个人信息刑法保护[J].厦门大学法律评论,2022(2):184-210.
3林秋芬,张更路.基于C#的乒乓球赛事信息爬虫设计[J].电脑编程技巧与维护,2020(1):8-10.
4赖荣燊,肖人彬.基于客户评论与性能—结构映射的产品绿色创新设计方法[J].南昌工程学院学报,2020,39(3):1-7. 被引量：1
5黄蓉,毛红霞.基于豆瓣网某系列电影数据采集与可视化分析[J].现代信息科技,2020,4(23):4-7. 被引量：2
6吴道君.大数据背景python在网络爬虫框架中的应用[J].科学技术创新,2021(21):97-99. 被引量：4
7徐伟,许鹏,陈浩东.基于Scrapy框架的天气数据采集系统设计[J].湖北农机化,2021(13):109-111.
8刘红,姚旺君,孙彻,刘旭东,包正晶,贾召鹏.网络空间测绘系统分类及应用综述[J].信息技术与网络安全,2021,40(10):16-21. 被引量：5
9秦大强.抓取个人信息行为的法律解析:表征、性质与规制路径[J].上海公安学院学报,2021,31(5):45-57.
10李通,姚新强.Scrapy框架下区域人口数据爬虫的设计与实现[J].软件导刊,2021,20(11):152-157. 被引量：8

1张昊.英语听力中的关键词抓取策略探讨[J].山海经,2019(3):0210-0210.
2徐俊.公有云技术在高校中的应用与研究[J].计算机产品与流通,2019,0(4):227-227.
3朱真然,张竟.基于移动端的高职学生顶岗实习过程精细化管理系统设计与实现[J].产业与科技论坛,2018,17(2):56-57. 被引量：11
4张翅."全球购",商家又来忽悠?[J].中国科技财富,2019,0(4):59-60.
5徐颖.浅议基于电商网页界面的视觉传达设计[J].市场周刊·理论版,2018,0(34):0186-0186.
6常进,葛星,徐嘉纯,宫海滨.MTHFR C677T基因多态性与原发性高血压相关性的荟萃分析[J].徐州医科大学学报,2019,39(1):21-25. 被引量：3
7重剑.病毒播报[J].电脑爱好者,2017,0(20):55-55.
8胡锦玲,甘宏.基于Cookie的Web平台身份认证机制的研究与设计[J].江西科学,2018,36(1):141-144. 被引量：5
9Editorial office of Journal of Hydrodynamics.Editorial Message[J].Journal of Hydrodynamics,2019,31(2):428-428.
10谭洪宇,赵亮,张扬.shRNA-Piezo1对异常机械牵张应力作用下髓核细胞凋亡的影响及相关机制[J].中国脊柱脊髓杂志,2018,28(12):1125-1132. 被引量：3

科技创新与应用

2019年第15期

浏览历史

内容加载中请稍等...

网络爬虫反爬策略研究被引量：9

参考文献4

二级参考文献8

共引文献42

同被引文献58

引证文献9

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

网络爬虫反爬策略研究 被引量：9

参考文献4

二级参考文献8

共引文献42

同被引文献58

引证文献9

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

网络爬虫反爬策略研究被引量：9