期刊文献+

Python环境下利用Selenium与JavaScript逆向技术爬虫研究 被引量:8

Research on Crawler Using Selenium and JavaScript Reverse Technology in Python Environment
下载PDF
导出
摘要 针对使用调试检测、数据加密等技术的网站,解析工具Beautiful Soup难以对网页进行解析爬取数据。本研究基于Python环境,结合JavaScript逆向技术、Beautiful Soup网页解析等网络爬虫技术,利用中间人攻击工具Mitmproxy(man-in-the-middle attack proxy)在本地指定设备端口开启本地代理,拦截并修改网页响应。同时,运用Web自动化工具Selenium来启动浏览器,设置使用代理服务器,连接到本地Mitmproxy代理,访问被修改的响应网页进行网页调试和解析,并对加密数据进行还原,解决网络爬虫中调试检测和数据加密难题,从而爬取数据。 For websites that use debugging detection,data encryption and other technologies,the parsing tool beautiful soup is difficult to parse web pages and crawl data Based on the python environment,combined with JavaScript reverse technology,beautiful soup web page parsing and other web crawler technologies,this study uses the man in the middle attack proxy(mitmproxy)to open the local proxy at the local designated device port,intercept and modify the web page response,and uses the web automation tool selenium to start the browser,set up the proxy server and connect to the local mitmproxy proxy.Visit the modified middle note to debug and analyze the web page,restore the encrypted data,solve the problem of debugging and data encryption in web crawler,and then crawl data.
作者 时春波 李卫东 秦丹阳 张海啸 吴峥嵘 SHI Chunbo;LI Weidong;QIN Danyang;ZHANG Haixiao;WU Zhengrong(College of Information Science and Engineering,Henan University of Technology,Zhengzhou 450001,China)
出处 《河南科技》 2022年第10期20-23,共4页 Henan Science and Technology
基金 国家级大学生创新创业训练计划项目(202110463069S、202110463066S) 省级大学生创新创业训练计划项目(S202110463070、S202110463076)。
关键词 网络爬虫 JavaScript逆向技术 网络代理 SELENIUM web crawler JavaScript reverse technology network agent Selenium
  • 相关文献

参考文献11

二级参考文献36

共引文献51

同被引文献53

引证文献8

二级引证文献17

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部