基于Selenium的网络爬虫分析与实现被引量：17

下载PDF

导出

摘要随着大数据时代的普及,各行各业每天会产生大量的数据。掌握核心数据,就掌握了公司的命脉,因此数据占极其重要的地位。如何去采集这些数据,并有效提取其中重要价值的数据并去分析是大数据时代最重要的部分。在网络爬虫中,可以利用各种规则爬取这些数据,但是一些动态网站中往往出现复杂的JavaScript加密算法反爬虫的安全措施,导致无法正常获取页面数据。通过Python操作Selenium登录网页,模拟人工操作浏览器,绕过这些反爬虫障碍,从而去获取页面的信息,完成信息的正常获取,大大节省了分析代码的时间。

作者樊涛赵征刘敏娟

机构地区郑州升达经贸管理学院信息工程学院

出处《电脑编程技巧与维护》 2019年第9期155-156,170,共3页 Computer Programming Skills & Maintenance

关键词大数据网络爬虫 JavaScript脚本语言反爬虫 PYTHON语言 Selenium框架

分类号 TP393.092 [自动化与计算机技术—计算机应用技术] TP311.13 [自动化与计算机技术—计算机软件与理论] TP312.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

同被引文献95

1李垚周,李光明.分布式数据清洗系统设计[J].网络安全技术与应用,2020,0(2):60-62. 被引量：7
2陈晴光.电子商务数据挖掘可视化系统模型研究及应用[J].计算机工程与应用,2007,43(5):242-245. 被引量：4
3李稚楹,杨武,谢治军.PageRank算法研究综述[J].计算机科学,2011,38(B10):185-188. 被引量：48
4宋成方.查收查引服务质量提高路径及其延伸服务探析[J].山东图书馆学刊,2012(5):47-50. 被引量：19
5樊亚芳,陈锴.利用Excel和EndNote Web提高论文查收查引工作效率[J].图书馆杂志,2013,32(1):32-34. 被引量：31
6王学勤,郝丹,郑菲,赵文忠,周津慧.“查收查引报告自动生成系统”应用实践研究[J].图书情报工作,2014,58(16):131-137. 被引量：43
7马豫星.Redis数据库特性分析[J].物联网技术,2015,5(3):105-106. 被引量：30
8涂颖哲.论文查收查引工具软件的设计与应用实践[J].农业图书情报学刊,2015,27(8):34-38. 被引量：12
9马芳珍,李峰,季梵,刘姝,王旭,刘素清.对CALIS查收查引系统的测试和应用效果评价[J].大学图书馆学报,2016,34(2):97-102. 被引量：27
10陈月从,方燕虹,武桂芹,何琼,田慧云.基于云平台的论文自动查收查引移动应用系统[J].情报探索,2016(3):66-72. 被引量：11

引证文献17

1高艳.基于Selenium框架的大数据岗位数据爬取与分析[J].工业控制计算机,2020,33(2):109-111. 被引量：6
2王予诺.基于API服务器的爬虫项目设计与实现[J].电子技术与软件工程,2020(2):201-203. 被引量：2
3朱策,徐宏,林新,弥云辉,徐原,杨仕琼.基于网络爬虫的能源政策监测[J].科技创新导报,2019,16(35):141-142. 被引量：1
4余凯,汤渊,黎海震,夏伟轩.基于Selenium框架的电力系统数据爬取应用研究[J].现代信息科技,2020,4(5):26-28. 被引量：1
5郝佳睿.学生信息管理微信小程序数据获取与构建[J].福建电脑,2020,36(11):101-103.
6虞晨琳.基于Python语言的WOS引文检索软件设计与实现[J].新世纪图书馆,2020(11):53-56. 被引量：5
7王艳,蒋凌迪.基于Python个性化礼物推荐系统的设计与实现[J].信息与电脑,2020,32(22):97-99. 被引量：3
8许景贤,林锦程,程雨萌.Selenium框架的反爬虫程序设计与实现[J].福建电脑,2021,37(1):26-29. 被引量：6
9黄震,高蕾,冼沛杰,谢杰峰,陈智超.Python爬虫在导购系统中的应用[J].福建电脑,2021,37(2):14-19. 被引量：1
10齐凤亮,光晓俐,邹积鑫,林雷祥,童长毅.一种互联网假酒信息监测模型的建立与应用[J].刑事技术,2021,46(4):422-427.

二级引证文献44

1温佐承,侯帅.基于Python的网络爬虫设计与实现[J].电脑编程技巧与维护,2020(7):21-23. 被引量：2
2王陈喜.网络攻击下电力系统信息安全分析[J].电力系统装备,2020(15):162-163.
3傅骏,傅馨竹,吴高静,丁才愈,龙辉阳,熊子淇.智能信息采集器软件开发实践[J].中小企业管理与科技,2021(13):192-193.
4周游宇,孙洪波,梅良才.基于网络爬虫的单词翻译器设计与研究[J].科技资讯,2021,19(16):4-6.
5燕妮,李岳松,郭史进,刘浩宇.基于Flask和爬虫的书籍循环平台的设计与实现[J].科技与创新,2021(17):1-3. 被引量：1
6忽爱平,范伊红,李阳,李坤.基于Selenium的网络爬虫的设计与实现[J].无线互联科技,2021,18(17):39-40. 被引量：2
7陈小云,陈宇.基于WechatApplet的礼品推荐平台的设计与实现[J].电子技术与软件工程,2021(22):30-31.
8李晨昊.基于BeautifulSoup+requests和selenium爬虫网页自动化处理的实现和性能对比[J].现代信息科技,2021,5(16):10-12. 被引量：7
9郭银芳,韩凯,郭峰明,王国升,李雪萌.基于互联网的爬虫程序研究[J].计算机应用文摘,2022,38(2):73-75.
10贾琼,高永香.Python程序设计线上线下混合教学模式研究[J].信息与电脑,2022,34(1):241-243. 被引量：1

1许素,许新华,柏瑶,张盼,黄瑾.基于python的微信公众号关注者数据分析[J].电脑与信息技术,2019,27(5):61-63. 被引量：4
2刘心男,刘丹,周乐凯,王铁霖.社会化问答社区视角下的BIM技术[J].工程管理学报,2019,33(4):43-47.
3张扬,范岩,夏玲玲,陈俊安,王沁.微博用户信息采集分析系统设计与实现[J].软件导刊,2019,18(9):125-129. 被引量：2
4鲁丰玲.基于Scrapy的招聘信息爬虫设计与实现[J].科技资讯,2019,17(20):7-10. 被引量：4
5季旭东,张海.DES数据加密算法在计算机通信中的应用[J].信息记录材料,2019,20(8):84-85. 被引量：2
6《中外医疗》约稿函[J].中外医疗,2019,38(22):13-13.
7本刊记者.展览资讯[J].书与画,2017,0(1):42-42.
8《糖尿病新世界》约稿函[J].糖尿病新世界,2019,22(15):179-179.
9谢伟伟.利用开源工具构建论文查收查引系统[J].中国高新科技,2019,0(17):94-95. 被引量：3
10叶久铭.一款前馈功率放大器的自动化测试设计[J].电子测试,2019,0(13):22-23.

电脑编程技巧与维护

2019年第9期

浏览历史

内容加载中请稍等...

基于Selenium的网络爬虫分析与实现被引量：17

同被引文献95

引证文献17

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

基于Selenium的网络爬虫分析与实现 被引量：17

同被引文献95

引证文献17

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

基于Selenium的网络爬虫分析与实现被引量：17