期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于分布式Docker群集的招聘网站职位数据持续爬取和分析 被引量:2
1
作者 张梁斌 柴晖 +1 位作者 王渊明 万健 《浙江万里学院学报》 2019年第2期85-90,共6页
许多大型在线求职平台由于招聘信息不统一,求职者难以在丰富冗余的求职信息中找到合适精准的信息。利用网页爬虫技术,设计实现了分布式Docker容器群集架构下招聘网站的职位数据持续爬取和分析展示。首先,利用Swarm容器管理工具构建多台... 许多大型在线求职平台由于招聘信息不统一,求职者难以在丰富冗余的求职信息中找到合适精准的信息。利用网页爬虫技术,设计实现了分布式Docker容器群集架构下招聘网站的职位数据持续爬取和分析展示。首先,利用Swarm容器管理工具构建多台物理主机的Docker群集;然后,利用Python的Scarpy框架对主流招聘网站的非结构化职位信息进行持续性分布式网络爬虫,涉及URL地址去重、数据采集、提取和清洗等,产生招聘职位的MYSQL数据库;最后,对求职数据库进行分析挖掘,生成职位数量分布热力图、岗位技能画像和可视化展示的统计图表,可为求职者提供直观的职位信息参考。 展开更多
关键词 招聘职位 网页爬虫 docker群集 SWARM 可视化
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部