基于分布式Docker群集的招聘网站职位数据持续爬取和分析被引量：2

Continuous Crawling and Analysis of Job Data in Recruitment Website Based on Distributed Docker Cluster

下载PDF

导出

摘要许多大型在线求职平台由于招聘信息不统一,求职者难以在丰富冗余的求职信息中找到合适精准的信息。利用网页爬虫技术,设计实现了分布式Docker容器群集架构下招聘网站的职位数据持续爬取和分析展示。首先,利用Swarm容器管理工具构建多台物理主机的Docker群集;然后,利用Python的Scarpy框架对主流招聘网站的非结构化职位信息进行持续性分布式网络爬虫,涉及URL地址去重、数据采集、提取和清洗等,产生招聘职位的MYSQL数据库;最后,对求职数据库进行分析挖掘,生成职位数量分布热力图、岗位技能画像和可视化展示的统计图表,可为求职者提供直观的职位信息参考。 Many large online job-hunting platforms have inconsistent recruitment information, so it is difficult for job seekers to find appropriate and accurate information in the rich and redundant job-hunting information. This paper designs and implements the continuous crawling and analytical display of job data for recruitment websites based on distributed Docker container cluster by using web crawler technology. Firstly, Swarm container management tools are used to build Docker clusters of multiple physical hosts;then, we use Python’s Scarpy framework to perform a continuous distributed web crawler for unstructured job information of recruitment websites, which involves URL duplication, data collection, extraction and cleaning, to generate the MYSQL database of recruitment position;finally, we analyze and mine the job database, to generate statistical charts of job number distribution thermodynamic diagram, job skill portrait and visual display, which can provide the intuitive information reference for job seekers.

作者张梁斌柴晖王渊明万健 ZHANG Liang-bin;CHAI Hui;WANG Yuan-ming;WAN Jian(Zhejiang Wanli University, Ningbo Zhejiang 315100;Hangzhou Dianzi University, Hangzhou Zhejiang 310018)

机构地区浙江万里学院杭州电子科技大学

出处《浙江万里学院学报》 2019年第2期85-90,共6页 Journal of Zhejiang Wanli University

基金 2018年度高校访问学者“教师专业发展项目”(FX2018050) 2018年浙江省大学生科技创新项目暨新苗人才计划(2018R420016)。

关键词招聘职位网页爬虫 Docker群集 SWARM 可视化 job recruitment Web crawler Docker cluster Swarm visualization

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1于娟,刘强.主题网络爬虫研究综述[J].计算机工程与科学,2015,37(2):231-237. 被引量：103
2华云彬,匡芳君.基于Scrapy框架的分布式网络爬虫的研究与实现[J].智能计算机与应用,2018,8(5):46-50. 被引量：11
3应毅,刘亚军,俞琰.利用Docker容器技术构建大数据实验室[J].实验室研究与探索,2018,37(2):264-268. 被引量：24
4黄凯,孟庆永,谢雨来,冯丹,秦磊华.基于Docker swarm集群的动态加权调度策略[J].计算机应用,2018,38(5):1399-1403. 被引量：6
5冀潇,李杨.采用ECharts可视化技术实现的数据体系监控系统[J].计算机系统应用,2017,26(6):72-76. 被引量：41

二级参考文献36

1杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3
2夏崇镨,康丽.基于叙词表的主题爬虫技术研究[J].现代图书情报技术,2007(5):41-44. 被引量：8
3刘国靖,康丽,罗长寿.基于遗传算法的主题爬虫策略[J].计算机应用,2007,27(B12):172-174. 被引量：14
4王岩.搜索引擎中网络爬虫技术的发展[J].电信快报（网络与通信）,2008(10):20-22. 被引量：11
5童亚拉.自适应动态演化粒子群算法在Web主题信息搜索中的应用[J].武汉大学学报（信息科学版）,2008,33(12):1296-1299. 被引量：4
6金海,廖小飞.面向计算系统的虚拟化技术[J].中国基础科学,2008,10(6):12-18. 被引量：25
7贺晟,程家兴,蔡欣宝.基于模拟退火算法的主题爬虫[J].计算机技术与发展,2009,19(12):55-58. 被引量：8
8杨定中,赵刚,王泰.网络爬虫在Web信息搜索与数据挖掘中应用[J].计算机工程与设计,2009,30(24):5658-5662. 被引量：37
9何增颖.虚拟机技术的实验教学应用[J].实验科学与技术,2010,8(1):80-82. 被引量：24
10谢志妮.一种新的基于概念树的主题网络爬虫方法[J].计算机与现代化,2010(4):103-106. 被引量：2

共引文献180

1李家瑞,李华昱,闫阳,付亚凤.基于事件抽取的学科建设知识图谱构建与应用[J].计算机系统应用,2022,31(11):100-110. 被引量：2
2齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
3毋琳,王宁,赵建辉,李闯,闵林.河流径流雷达卫星遥感监测系统的设计与实现[J].河南大学学报（自然科学版）,2020(4):433-442. 被引量：3
4井世洁,邹利.“校园欺凌”的网络表达与治理——基于LDA主题模型的大数据分析[J].青少年犯罪问题,2020(6):60-68.
5王立勇,邹军华.城市轨道交通工程造价数据三维可视化应用研究——基于treeTable组件和Echarts技术[J].工业建筑,2023,53(S01):786-788.
6王加宾,梁鉴如,戴翌清,施聪,陆鑫源,陈强.基于STM32的地铁屏蔽门状态监控与报警系统设计[J].传感器与微系统,2018,37(12):63-65. 被引量：6
7李慧敏,孙佳亮.论爬虫抓取数据行为的法律边界[J].电子知识产权,2018(12):58-67. 被引量：49
8殷帅,胡越黎,刘思齐,燕明.基于YOLO网络的数据采集与标注[J].仪表技术,2018(12):22-25. 被引量：7
9李静力.面向高危风险漏洞修复行为的系统研究[J].自动化技术与应用,2019,38(1):39-45. 被引量：2
10周少波.基于SSM框架的数据采集系统的设计与实现[J].电脑知识与技术,2018,14(12):45-47. 被引量：1

同被引文献19

1刘斌,刘永会,刘磊.一种SWARM单体机器人的设计与实现[J].现代电子技术,2013,36(4):85-88. 被引量：1
2洪文圳.实验云虚拟资源动态自适应负载均衡研究[J].微型机与应用,2015,34(20):54-56. 被引量：2
3宋玉琴,姬引飞,朱紫娟.基于CC2530和CC2592集群温室环境监测系统的设计[J].现代电子技术,2015,38(22):69-72. 被引量：9
4赵莉.基于改进量子粒子群算法的云计算资源调度[J].南京理工大学学报,2016,40(2):223-228. 被引量：14
5高田田,张莉,李炳德,高晴.基于改进粒子群算法的足球机器人路径规划[J].西安工程大学学报,2016,30(5):609-615. 被引量：16
6沈强,杨健,王家亮.民航云计算环境下的SLA保证策略研究[J].计算机技术与发展,2017,27(6):156-159. 被引量：1
7吴文铁,杨锐,李敏.基于DVFS感知与虚拟机动态合并的云数据中心能效策略[J].计算机应用研究,2018,35(8):2484-2488. 被引量：2
8屈莉莉,李雪峰,翟军.招聘网站职位需求的WebMagic主题爬虫技术分析[J].信息系统工程,2019,32(2):79-81. 被引量：4
9朱波,童秋英,郑楚,余健.基于微服务的国土资源执法监察信息平台研究[J].地理空间信息,2019,17(4):113-117. 被引量：3
10关兴民,张兆伟,王祝先,王子洋.基于Kubernetes的气象私有云自动化部署与优化[J].信息技术,2019,43(5):76-80. 被引量：8

引证文献2

1刘胜强.基于Docker swarm集群的云资源动态负载均衡调度方法研究[J].电子设计工程,2020,28(17):138-141. 被引量：2
2张长华.大数据视域下网络招聘数据信息挖掘的研究[J].科学技术创新,2021(10):114-115. 被引量：3

二级引证文献5

1李玥.基于HDFS的动态负载均衡方法研究[J].信息与电脑,2021,33(3):68-72. 被引量：1
2文鹏,袁小艳.基于Python的招聘信息爬取和分析[J].信息与电脑,2021,33(9):65-67. 被引量：1
3丁文浩,朱齐亮.基于Python的招聘数据爬取与分析[J].网络安全技术与应用,2022(1):43-45. 被引量：6
4谭秦红,田应信,邓旭明.基于FPGA的网络大数据负载均衡调度方法[J].信息与电脑,2022,34(18):46-48.
5刘彩娜,路健,封逍遥.基于招聘信息的智慧物流人才需求文本挖掘[J].无线互联科技,2023,20(2):138-140. 被引量：1

1谷歌发布可穿戴设备相关招聘职位[J].国际品牌观察（媒介）,2019,0(2):19-19.
2王敬东.安全理念下压力容器管理与检验方法探析[J].科技风,2018(35):170-170. 被引量：1
3李锦锐,章家宝,彭梅.基于大数据技术的求职用户画像系统研究与设计[J].产业与科技论坛,2019,18(4):75-76. 被引量：9
4苟晓丽.慕课背景下大学生心理健康教育课程教学模式创新研究[J].齐齐哈尔师范高等专科学校学报,2019(1):90-91. 被引量：2
5李宗富,于佳会.近五年国家公务员考试中档案学专业人才需求现状调查研究——基于2015—2019年国家公务员考试职位表分析[J].档案管理,2019(2):60-64. 被引量：11
6吴松,王坤,金海.操作系统虚拟化的研究现状与展望[J].计算机研究与发展,2019,56(1):58-68. 被引量：18
7夏要伟,郭金运,刘路,孔巧丽.基于运动学和简化动力学的SWARM卫星精密定轨研究[J].大地测量与地球动力学,2019,39(4):392-398. 被引量：7
8宋智雯,李昌清,施新凯.基于人工智能的就业平台数据采集与分析[J].无线互联科技,2019,16(1):134-135. 被引量：2
9张蕾.毕业生就业信息的收集和处理[J].农家参谋,2018(12X):288-289.
10刘华.高职院校微生物学课程思政与思政课程同向同行的探析[J].神州,2019,0(11):139-139.

浙江万里学院学报

2019年第2期

浏览历史

内容加载中请稍等...

基于分布式Docker群集的招聘网站职位数据持续爬取和分析被引量：2

参考文献5

二级参考文献36

共引文献180

同被引文献19

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于分布式Docker群集的招聘网站职位数据持续爬取和分析 被引量：2

参考文献5

二级参考文献36

共引文献180

同被引文献19

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于分布式Docker群集的招聘网站职位数据持续爬取和分析被引量：2