基于Selenium框架的大数据岗位数据爬取与分析被引量：5

Crawling and Analysis Data of Big Data Post Based on Selenium Framework

下载PDF

导出

摘要在对网页数据进行爬取时,由于很多网页不是静态的HTML文档,而是包含很多JavaScript程序,使用传统的爬虫方法不能有效地获得所需要的信息,采用Selenium模拟浏览器访问网站的方法以及Python语言对拉勾网中大数据相关岗位数据进行了爬取,并且对大数据开发工程师、大数据研发工程师以及大数据架构师这三个岗位中岗位的任职要求数据进行了分析,用词云进行了展示,可以为数据科学与大数据技术专业培养方案的制定以及相关课程授课学时的设计提供一定的依据。 When crawling the Web data,because many web are not static HTML documents and contain many JavaScript programs,traditional crawling methods cannot be used to obtain the required information effectively.This paper uses Selenium to simulate a browser to access the website Method and uses python language to crawle the data of big data related posts in Lagou.com,and crawles the requirement data for the posts in the three positions of big data development engineer,big data R&D engineer and big data architect.Using the post date to make the analysis and make the demonstration with word cloud,that can provide a certain basis for the formulation of training programs for data science and big data technology majors and the teaching hours of related courses.

作者高艳

机构地区山西农业大学信息学院

出处《工业控制计算机》 2020年第2期109-111,共3页 Industrial Control Computer

关键词 Selenium框架 PYTHON 大数据爬虫 Selenium framework Python big data crawl

分类号 TP311.13-4 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1姜文,刘立康.基于Selenium的Web软件自动化测试[J].计算机技术与发展,2018,28(9):47-52. 被引量：22
2吴永聪.浅谈Python爬虫技术的网页数据抓取与分析[J].计算机时代,2019,0(8):94-96. 被引量：18
3Kevin.网络爬虫技术原理[J].计算机与网络,2018,44(10):38-40. 被引量：15
4樊涛,赵征,刘敏娟.基于Selenium的网络爬虫分析与实现[J].电脑编程技巧与维护,2019(9):155-156. 被引量：17
5左薇,张熹,董红娟,于梦君.主题网络爬虫研究综述[J].软件导刊,2020,19(2):278-281. 被引量：7

二级参考文献21

1刘林,汪涛,樊孝忠.主题爬虫的解决方案[J].华南理工大学学报（自然科学版）,2004,32(z1):137-141. 被引量：10
2周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
3方启明,杨广文,武永卫,朱安平,郑纬民.面向P2P搜索的可定制聚焦网络爬虫[J].华中科技大学学报（自然科学版）,2007,35(S2):148-152. 被引量：5
4袁浩,黄烟波.网页标题分析对主题爬虫的改进[J].计算机技术与发展,2009,19(6):22-24. 被引量：11
5白鹤,汤迪斌,王劲林.分布式多主题网络爬虫系统的研究与实现[J].计算机工程,2009,35(19):13-16. 被引量：20
6蒋宗礼,田晓燕,赵旭.一种基于语义分析的主题爬虫算法[J].计算机工程与科学,2010,32(9):145-147. 被引量：7
7熊忠阳,史艳,张玉芳.基于信息增益的自适应主题爬行策略[J].计算机应用研究,2012,29(2):501-503. 被引量：3
8王晶,朱珂,汪斌强.基于信息数据分析的微博研究综述[J].计算机应用,2012,32(7):2027-2029. 被引量：21
9吴伶琳.基于Selenium的软件自动化测试的研究与应用[J].计算机与现代化,2013(2):65-68. 被引量：22
10周中华,张惠然,谢江.基于Python的新浪微博数据爬虫[J].计算机应用,2014,34(11):3131-3134. 被引量：61

共引文献74

1李希阁.基于动态手势的集群软件部署平台的设计与实现[J].中国水运（下半月）,2021,21(3):18-19. 被引量：1
2张喜红,王玉香.基于Python Tkinter课堂手机监管系统的设计[J].中州大学学报,2019,36(2):125-128. 被引量：6
3黄永锋,孙自诚,罗保国.笔记本电脑自动化测试的任务分配模型与方法[J].计算机系统应用,2019,28(6):183-188. 被引量：1
4庄文龙,陈惠娟.基于Selenium2的自动化测试应用[J].福建电脑,2019,35(8):89-91. 被引量：7
5叶文全.基于C#+ScrapySharp+Selenium的数据采集技术研究[J].湖北第二师范学院学报,2019,36(8):44-48. 被引量：2
6方慧霆,叶桂添.IPRAN网络规划优化中引入大数据分析工具的探索[J].移动通信,2019,43(8):87-91. 被引量：2
7苗力元,李启明,刘雅东,郑梦青.图像比对技术在软件自动化测试中的应用探究[J].信息通信技术与政策,2019,0(11):79-84. 被引量：2
8刘小英,刘鹏.小说聚合搜索引擎的的设计与实现[J].电脑编程技巧与维护,2019,0(11):34-37.
9李仕阳,唐万梅.爬虫及可视化技术辅助“MOOC+SPOC”混合式教学的探索与应用[J].计算机时代,2020,0(1):98-101. 被引量：3
10成文莹,李秀敏.基于Python的电影数据爬取与数据可视化分析研究[J].电脑知识与技术,2019,15(11):8-10. 被引量：14

同被引文献18

1王娟,吴金鹏.网络爬虫的设计与实现[J].软件导刊,2012,11(4):136-137. 被引量：7
2侯志江.基于Selenium WebDriver的自动交互式数据采集技术研究[J].图书情报导刊,2017,2(4):57-61. 被引量：3
3花君林.基于Selenium的Python网络爬虫的实现[J].电脑编程技巧与维护,2017(15):30-31. 被引量：17
4严明,郑昌兴.Python环境下的文本分词与词云制作[J].现代计算机,2018,24(23):86-89. 被引量：30
5王芳.基于Python的招聘网站信息爬取与数据分析[J].信息技术与网络安全,2019,38(8):42-46. 被引量：18
6夏克付,章晓勤.基于Selenium自动化测试框架的数据驱动技术研究及应用[J].齐齐哈尔大学学报（自然科学版）,2019,35(6):18-22. 被引量：17
7沈承放,莫达隆.beautifulsoup库在网络爬虫中的使用技巧及应用[J].电脑知识与技术,2019,15(10):13-16. 被引量：12
8李骏,张鸽,纪海婷,于翔.Python在标准查新中的应用[J].科技创新与应用,2020,0(12):184-186. 被引量：5
9张艳,吴玉全.基于Python的网络数据爬虫程序设计[J].电脑编程技巧与维护,2020,0(4):26-27. 被引量：14
10刘海刚,胡曼冬.基于爬虫的失信人数据库建设研究[J].信息与电脑,2020,32(5):143-146. 被引量：1

引证文献5

1温佐承,侯帅.基于Python的网络爬虫设计与实现[J].电脑编程技巧与维护,2020(7):21-23. 被引量：2
2忽爱平,范伊红,李阳,李坤.基于Selenium的网络爬虫的设计与实现[J].无线互联科技,2021,18(17):39-40. 被引量：2
3李晨昊.基于BeautifulSoup+requests和selenium爬虫网页自动化处理的实现和性能对比[J].现代信息科技,2021,5(16):10-12. 被引量：6
4李建豪,林绮洁,李杰华,马坚辉,廖志勇.数据挖掘在大学生就业领域中的应用[J].福建电脑,2022,38(6):27-30.
5李宝明,徐玲.自动填报技术在乌鲁木齐建筑物承载体普查中的应用[J].城市勘测,2023(6):57-59.

二级引证文献9

1陈皓,周传生.基于Python和Scrapy框架的网页爬虫设计与实现[J].电脑知识与技术,2021,17(13):3-5. 被引量：7
2时春波,李卫东,秦丹阳,张海啸,吴峥嵘.Python环境下利用Selenium与JavaScript逆向技术爬虫研究[J].河南科技,2022,41(10):20-23. 被引量：7
3任夏荔.基于Python的古诗文数据爬取与可视化分析[J].电子技术与软件工程,2022(13):186-189.
4高悦.基于网络爬虫和社会网络分析的哔哩哔哩用户关注行为研究[J].计算机应用文摘,2022,38(15):92-94.
5赵奕霖,沈涛,宋齐军,杜锋,马朝暾.企业网络信息安全自动化防护方案浅析[J].邮电设计技术,2022(9):71-76.
6吴宇,孙凤.基于PyAutoGUI的图形用户界面自动化办公技术研究[J].信息技术与信息化,2022(11):122-125. 被引量：1
7王寒冰.基于数据挖掘的火锅店服务评价改进研究[J].科技视界,2022(31):186-189.
8代子正,鲁程逸,王艳红,潘彬涛.基于Python的商品信息及评论研究[J].内蒙古科技与经济,2024(1):117-120.
9陈凌芳,周雁,王庆娟,林佳皓,谌业恒.基于微信小程序的鸟鸣声识别系统的研究与实现[J].现代计算机,2024,30(4):75-82.

1赵丽华.基于Python的专业英语翻译器实现[J].电脑编程技巧与维护,2020(1):18-19. 被引量：1
2欧梦吉,刘永贵.基于企业招聘信息的教育技术学专业人才需求分析与启示[J].中国教育信息化,2020,26(4):77-82. 被引量：1
3王曼.云徙科技：引领企业数字化营销[J].全球商业经典,2019,0(12):40-41.
4招聘信息[J].丝网印刷,2020,0(1):60-60.
5翟崑.探索后冷战时代东南亚地区的演进之道[J].东南亚研究,2019,0(6):1-10. 被引量：6
6王晓洁,秦冰峰.基于JQuery脚本库的动态效果的设计与实现[J].新乡学院学报,2019,36(12):23-26.
7李秋鸿,黄清松,毛建文,张咏莉.以小组调研为核心的多元化教学模式在医学遗传学课程中的应用探索[J].现代医药卫生,2020,36(5):781-783. 被引量：4
8李沁.阿里妈妈：实现品效合一要对同一拨消费者进行持续的运营[J].现代广告,2020,0(1):12-13.
9立达信IP摄像头获TUV莱茵颁发消费类产品网络安全认证证书[J].电子质量,2020,0(1):45-45.
10刘海军,谢婷婷,余昌胤,姚本海,王长明,徐祖才,雷显泽,徐平.问卷星调查对神经系统教学反馈作用探讨[J].中国继续医学教育,2020,12(5):15-18. 被引量：5

工业控制计算机

2020年第2期

浏览历史

内容加载中请稍等...

基于Selenium框架的大数据岗位数据爬取与分析被引量：5

参考文献5

二级参考文献21

共引文献74

同被引文献18

引证文献5

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于Selenium框架的大数据岗位数据爬取与分析 被引量：5

参考文献5

二级参考文献21

共引文献74

同被引文献18

引证文献5

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于Selenium框架的大数据岗位数据爬取与分析被引量：5