期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

Python环境下利用Selenium与JavaScript逆向技术爬虫研究被引量：8

Research on Crawler Using Selenium and JavaScript Reverse Technology in Python Environment

下载PDF

导出

摘要针对使用调试检测、数据加密等技术的网站,解析工具Beautiful Soup难以对网页进行解析爬取数据。本研究基于Python环境,结合JavaScript逆向技术、Beautiful Soup网页解析等网络爬虫技术,利用中间人攻击工具Mitmproxy(man-in-the-middle attack proxy)在本地指定设备端口开启本地代理,拦截并修改网页响应。同时,运用Web自动化工具Selenium来启动浏览器,设置使用代理服务器,连接到本地Mitmproxy代理,访问被修改的响应网页进行网页调试和解析,并对加密数据进行还原,解决网络爬虫中调试检测和数据加密难题,从而爬取数据。 For websites that use debugging detection,data encryption and other technologies,the parsing tool beautiful soup is difficult to parse web pages and crawl data Based on the python environment,combined with JavaScript reverse technology,beautiful soup web page parsing and other web crawler technologies,this study uses the man in the middle attack proxy(mitmproxy)to open the local proxy at the local designated device port,intercept and modify the web page response,and uses the web automation tool selenium to start the browser,set up the proxy server and connect to the local mitmproxy proxy.Visit the modified middle note to debug and analyze the web page,restore the encrypted data,solve the problem of debugging and data encryption in web crawler,and then crawl data.

作者时春波李卫东秦丹阳张海啸吴峥嵘 SHI Chunbo;LI Weidong;QIN Danyang;ZHANG Haixiao;WU Zhengrong(College of Information Science and Engineering,Henan University of Technology,Zhengzhou 450001,China)

机构地区河南工业大学信息科学与工程学院

出处《河南科技》 2022年第10期20-23,共4页 Henan Science and Technology

基金国家级大学生创新创业训练计划项目(202110463069S、202110463066S) 省级大学生创新创业训练计划项目(S202110463070、S202110463076)。

关键词网络爬虫 JavaScript逆向技术网络代理 SELENIUM web crawler JavaScript reverse technology network agent Selenium

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1周毅,宁亮,王鸥,孙海波,何金.基于Python的网络爬虫和反爬虫技术研究[J].现代信息科技,2021,5(21):149-151. 被引量：8
2张俊威,肖潇.基于Python爬虫技术的网页数据抓取与分析研究[J].信息系统工程,2021,34(2):155-156. 被引量：8
3忽爱平,范伊红,李阳,李坤.基于Selenium的网络爬虫的设计与实现[J].无线互联科技,2021,18(17):39-40. 被引量：2
4李晨昊.基于BeautifulSoup+requests和selenium爬虫网页自动化处理的实现和性能对比[J].现代信息科技,2021,5(16):10-12. 被引量：7
5许景贤,林锦程,程雨萌.Selenium框架的反爬虫程序设计与实现[J].福建电脑,2021,37(1):26-29. 被引量：6
6王朝阳,范伊红,李梦丹,忽爱平.Python环境下的JavaScript逆向技术分析[J].无线互联科技,2021,18(17):97-98. 被引量：3
7张宝刚.基于Python的网络爬虫与反爬虫技术的研究[J].电子世界,2021(4):86-87. 被引量：11
8沈熠辉.以Selenium为核心的亚马逊爬虫与可视化[J].福建电脑,2021,37(12):43-46. 被引量：5
9樊涛,赵征,刘敏娟.基于Selenium的网络爬虫分析与实现[J].电脑编程技巧与维护,2019(9):155-156. 被引量：17
10李晓宇,徐勇,汪倩,武雅利,马琴琴.基于Selenium的淘宝商品评论爬虫算法[J].信息与电脑,2020,32(12):62-64. 被引量：4

二级参考文献36

1方美玉,郑小林,陈德人,华艺,施艳.商品评论聚焦爬虫算法设计与实现[J].吉林大学学报（工学版）,2012,42(S1):377-381. 被引量：10
2陈晴光.电子商务数据挖掘可视化系统模型研究及应用[J].计算机工程与应用,2007,43(5):242-245. 被引量：4
3王娟,吴金鹏.网络爬虫的设计与实现[J].软件导刊,2012,11(4):136-137. 被引量：7
4赵宇翔,范哲,朱庆华.用户生成内容(UGC)概念解析及研究进展[J].中国图书馆学报,2012,38(5):68-81. 被引量：290
5于娟,刘强.主题网络爬虫研究综述[J].计算机工程与科学,2015,37(2):231-237. 被引量：103
6吴剑兰.基于Python的新浪微博爬虫研究[J].无线互联科技,2015,12(6):93-94. 被引量：6
7金燕.国内外UGC质量研究现状与展望[J].情报理论与实践,2016,39(3):15-19. 被引量：24
8王洪伟,宋媛,杜战其,郑丽娟,华瑾,张艺伟.基于在线评论情感分析的快递服务质量评价[J].北京工业大学学报,2017,43(3):402-412. 被引量：27
9谢克武.大数据环境下基于python的网络爬虫技术[J].电子制作,2017,25(9):44-45. 被引量：50
10王碧瑶.基于Python的网络爬虫技术研究[J].数字技术与应用,2017,35(5):76-76. 被引量：16

共引文献57

1乔显栋,任睿智,史贺龙,费嘉琛.气象网页数据反爬虫措施探讨[J].数字技术与应用,2024,42(2):112-114.
2孙海荣,赵志豪.赋能与负能:新闻聚合平台数字爬虫技术的伦理危机与治理路径[J].传媒论坛,2022,5(24):45-50. 被引量：2
3高艳.基于Selenium框架的大数据岗位数据爬取与分析[J].工业控制计算机,2020,33(2):109-111. 被引量：6
4王予诺.基于API服务器的爬虫项目设计与实现[J].电子技术与软件工程,2020(2):201-203. 被引量：2
5朱策,徐宏,林新,弥云辉,徐原,杨仕琼.基于网络爬虫的能源政策监测[J].科技创新导报,2019,16(35):141-142. 被引量：1
6余凯,汤渊,黎海震,夏伟轩.基于Selenium框架的电力系统数据爬取应用研究[J].现代信息科技,2020,4(5):26-28. 被引量：1
7郝佳睿.学生信息管理微信小程序数据获取与构建[J].福建电脑,2020,36(11):101-103.
8虞晨琳.基于Python语言的WOS引文检索软件设计与实现[J].新世纪图书馆,2020(11):53-56. 被引量：5
9王艳,蒋凌迪.基于Python个性化礼物推荐系统的设计与实现[J].信息与电脑,2020,32(22):97-99. 被引量：3
10许景贤,林锦程,程雨萌.Selenium框架的反爬虫程序设计与实现[J].福建电脑,2021,37(1):26-29. 被引量：6

同被引文献53

1丁有伟,翟文斌,胡孔法,郑晓梅,戴彩艳,王天舒.基于同态加密的中医药数据云端安全存储算法[J].世界科学技术-中医药现代化,2022,24(7):2755-2765. 被引量：3
2曹辉.基于HLS协议的全景高校课堂视频直播平台的设计和研究[J].工业控制计算机,2017,30(6):32-33. 被引量：3
3田思,杨雁.基于Chrome浏览器扩展的图书采访插件开发[J].电脑知识与技术,2019,15(2Z):93-95. 被引量：2
4徐煜烨,李明春,祝振东,刘强.基于HLS自适应定位播放技术的研究与实现[J].计算机与数字工程,2019,47(5):1212-1216. 被引量：3
5巫伟峰,张群英.基于互联网学术搜索引擎分析国内树莓研究现状——以“百度学术”为例[J].安徽农学通报,2019,25(14):50-52. 被引量：1
6赵俊杰,李思霖,孙博瑞,李梦浩.浅谈大数据环境下基于python的网络爬虫技术[J].中国新通信,2020,22(4):68-68. 被引量：6
7奚宇航,黄一平,苏检德,王淑沛.基于国密算法的即时通信加密软件系统的设计与实现[J].计算机应用与软件,2020,37(6):303-308. 被引量：16
8钟机灵.基于Python网络爬虫技术的数据采集系统研究[J].信息通信,2020(4):96-98. 被引量：28
9任仪.基于区块链与人工智能的网络多服务器SIP信息加密系统设计[J].计算机科学,2020,47(S01):634-638. 被引量：14
10魏雪飞,周祥.HLS流媒体技术在广播电视网络直播系统的应用[J].广播电视信息,2020,27(9):38-40. 被引量：6

引证文献8

1彭莲香,郭星涛.基于HLS协议视频流的分析处理技术探讨[J].工业控制计算机,2023,36(1):62-64. 被引量：4
2周力.基于AES算法的网络通信信息加密传输技术研究[J].长江信息通信,2023,36(1):70-72. 被引量：11
3李强.基于Python的新闻聚合系统网络爬虫研究[J].软件,2023,44(1):168-170.
4杨光,郑思琪.基于大数据的网络信息安全加密系统设计[J].信息与电脑,2023,35(2):235-237. 被引量：2
5黄式敏.基于改进遗传算法的计算机网络通信数据加密方法[J].信息与电脑,2023,35(3):102-104. 被引量：5
6谢凯,代康.基于RSA算法的无线异构通信网络数据加密传输方法[J].长江信息通信,2023,36(8):118-120. 被引量：12
7吕新超.Scrapy框架辅助下的Python爬虫系统研究[J].电脑知识与技术,2024,20(7):49-52.
8崔梦银,邓茵,刘满意.Python爬虫技术在学术聚合系统中的应用[J].现代信息科技,2024,8(10):68-74. 被引量：2

二级引证文献35

1史勤镇.KNN算法在网络安全入侵检测中的运用分析[J].中国公共安全,2023(8):146-148.
2周颖.信息通信工程中传输技术的研究分析[J].通信电源技术,2023,40(10):150-152.
3万莹,夏立洋,高微,桂健雄,余朵梅.基于HLS视频点播系统的设计与实现[J].现代计算机,2023,29(17):114-117. 被引量：1
4杨帆.基于智能优化算法的通信光缆网络线路规划设计[J].信息系统工程,2023(11):74-77. 被引量：2
5崔纪飞.信息加密技术在网络安全中的应用研究[J].西藏科技,2023,45(10):69-76. 被引量：2
6杨新涛,刘意辰,常津铭.基于API服务网关技术的物联网感知数据安全传输方法[J].无线互联科技,2023,20(24):119-121. 被引量：7
7李飞.基于人机交互技术的数字媒体移动端界面设计[J].长江信息通信,2023,36(11):127-129. 被引量：1
8何宇浩,王黎伟,黄怀霖,丁伟锋.基于NTRU格的云平台数据属性自动化加密技术[J].自动化与仪表,2024,39(2):130-134. 被引量：2
9蒋梦云.HLS流媒体技术在Twitch直播平台中的实践与优化[J].电脑知识与技术,2024,20(1):127-129. 被引量：2
10孙立仙.隐蔽通信网络传输信息加密处理方法[J].信息技术与信息化,2024(1):164-169.

1刘祎萍.基于激光测绘技术的闭腔配孔工艺优化[J].科技与创新,2022(10):77-79.
2马孝宗,王雪山.基于Python检查EAM系统数据规范性[J].现代信息科技,2022,6(3):92-94. 被引量：1
3伍华锋,王小刚,候劲,唐小林.Redis集群系统的优化研究与实现[J].四川轻化工大学学报（自然科学版）,2020,33(6):39-45. 被引量：7
4杨小兰.基于“教学评一体化”的初中英语阅读教学--以外研版八年级下册Module 9 Unit 2 A beautiful smile为例[J].福建基础教育研究,2022(4):57-60. 被引量：6
5孟宪颖,毛应爽.基于Python爬虫技术的商品信息采集与分析[J].软件,2021,42(11):128-130. 被引量：13
6John R.Bergquist,Patrick Starlinger,Brendan C.Visser.Same soup different taste-how to best manage the future liver remnant-a surgical perspective[J].Hepatobiliary Surgery and Nutrition,2021,10(5):734-736. 被引量：1
7马宏茹,李硕.ARP网络攻击与防御分析[J].信息与电脑,2021,33(23):214-218. 被引量：1
8陈徐毅.DevOps:软件工程领域的创新者[J].创意世界,2022(5):74-77.
9章东明,崔新健,崔志新.逆向技术流动绩效的影响因素——基于中国跨国研发中心的实证研究[J].科技管理研究,2022,42(7):109-117.
10沙子涵,舒辉,武成岗,熊小兵,康绯.基于回调函数的控制流深度模糊模型[J].软件学报,2022,33(5):1833-1848. 被引量：2

河南科技

2022年第10期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部