基于Python的51-job数据抓取程序设计被引量：6

Design on 51-job Data Scraping Program Based on Python

下载PDF

导出

摘要为了快速地获取职位信息,根据"前程无忧"的网页特点,设计了3种基于Python的爬虫程序,进行职位相关数据的抓取。通过对关键字的提取,匹配符合条件的职位信息,并且抓取相关内容存入Excel文件中,便于寻找相关职位信息及具体要求。实验结果表明:该程序能够快速且大量地抓取相关职位信息,针对性强,简单易读,有利于对职位信息的进一步挖掘及分析。 In order to obtain job information quickly,according to the characteristics of web pages with＂Worry-free Future＂,three kinds of Python-based crawler programs are designed to capture job-related data. Through the extraction of the keywords,the job information is matched,and the relevant content is captured in an Excel file,so that the related job information and specific requirements can be easily found. The experimental results show that this program can quickly and massively capture relevant job information,and it is highly targeted and easy to read,which is conducive to further mining and analysis of job information.

作者崔玉娇孙结冰祁晓波凌强朱勇 CUI Yujiao;SUN Jiebing;QI Xiaobo;LING Qiang;ZHU Yong(School of Electronic Engineering,Heilongjiang University,Harbin 150080,China)

机构地区黑龙江大学电子工程学院

出处《无线电通信技术》 2018年第4期416-419,共4页 Radio Communications Technology

关键词 PYTHON 爬虫职位前程无忧 Python crawler position Worry-free Future

分类号 TN911.7 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献12

1王碧瑶.基于Python的网络爬虫技术研究[J].数字技术与应用,2017,35(5):76-76. 被引量：16
2周中华,张惠然,谢江.基于Python的新浪微博数据爬虫[J].计算机应用,2014,34(11):3131-3134. 被引量：61
3涂小琴.基于Python爬虫的电影评论情感倾向性分析[J].现代计算机（中旬刊）,2017(12):52-55. 被引量：15
4郭丽蓉.基于Python的网络爬虫程序设计[J].电子技术与软件工程,2017(23):248-249. 被引量：59
5刘志凯,张太红,刘磊,罗鹏.基于Web的Python3编程环境[J].计算机系统应用,2015,24(7):236-239. 被引量：7
6王大伟.基于Python的Web API自动化测试方法研究[J].电子科学技术,2015,2(5):573-581. 被引量：9
7涂辉,王锋,商庆伟.Python3编程实现网络图片爬虫[J].电脑编程技巧与维护,2017(23):21-22. 被引量：10
8周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
9姜杉彪,黄凯林,卢昱江,张俊杰,曾志高,刘强.基于Python的专业网络爬虫的设计与实现[J].企业科技与发展,2016(8):17-19. 被引量：31
10陈琳,任芳.基于Python的新浪微博数据爬虫程序设计[J].信息系统工程,2016,29(9):97-99. 被引量：24

二级参考文献79

1周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
2刘慕涛,张磊,王艳,周晓中,张红雷,左芸.基于XML的API自动化测试工具设计与实现[J].计算机工程,2007,33(13):96-98. 被引量：13
3EHRIG M, MAEDCHE A. Ontology-focused crawling of Web documents[A]. Proceedings of the 2003 ACM symposium on Applied computing[C], March 2003.
4GUO Q, GUO H, ZHANG ZQ, et al. Schema Driven Topic Specific Web Crawling[A]. DASFAA[C], 2005.
5GRAUPMANN J, BIWER M, ZIMMER C, et al. COMPASS: A Concept-based Web Search Engine for HTML, XML, and Deep Web Data[A]. Proceedings of the 30th VLDB Conference[C],2004.
6QIN JL, ZHOU YL, CHAU M. Building domain-specific web collections for scientific digital libraries: a meta-search enhanced focused crawling method[A]. Proceedings of the 4th ACM/IEEE-CS joint conference on Digital libraries[C], June 2004.
7CHO J , GARCIA - MOLINA H , PAGE L . Efficient crawling through URL ordering[A]. Proceedings of the seventh international conference on World Wide Web 7[C], April 1998.
8FLORESCU D, LEVY AY, MENDELZON AO. Database techniques for the world-wide web: A survey[J]. SIGMOD Record, 1998,27(3) :59 -74.
9LAWRENCE S, GILES CL. Searching the World Wide Web[J].Science, 1998,280(5360):98.
10CHAKRABARTI S, VAN DEN BERG M, DOM B. Focused crawling: A new approach to topicspecific web resource discovery[A].Proceedings of the Eighth International World-Wide Web Conference[C], 1999.

共引文献369

1沈承放,莫达隆,黄文韬.网页数据采集算法及在住户调查中的应用[J].统计与决策,2021(7):52-56. 被引量：2
2齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
3谈帅,唐天琪,高雅.网络众源地理信息获取与整合方法研究[J].现代测绘,2021(2):53-58.
4梁晶,陈中元,张永宏,唐明灯.基于Python语言的“网络攻防技术”课程教学改革探索[J].中国多媒体与网络教学学报（电子版）,2020(14):48-50. 被引量：3
5项博良,唐淳淳,钱前,曹健东.基于网络爬虫的就业数据分析[J].智能计算机与应用,2020,10(1):223-226. 被引量：4
6李红.基于python的房屋信息数据分析[J].探索科学,2019,0(3):215-216.
7杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：2
8张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3
9胡宏涛,常佳.基于网络的信息获取技术浅析[J].福建电脑,2006,22(4):60-61. 被引量：4
10李刚,周立柱,郭奇,林玲.领域相关的Web网站抓取方法[J].计算机科学,2007,34(2):137-140. 被引量：5

同被引文献37

1杨露,葛文谦.基于Python的制造业数据分析可视化平台设计[J].信息化研究,2018,44(5):56-61. 被引量：4
2蒋洪磊.基于Python的网管软件技术体系设计[J].无线电通信技术,2015,41(4):87-90. 被引量：2
3吴瑶.儿童数字阅读变革与反思[J].中国出版,2016(2):40-44. 被引量：13
4夏火松,李保国.基于Python的动态网页评价爬虫算法[J].软件工程,2016,19(2):43-46. 被引量：20
5黎萍.新媒体阅读情境下儿童数字阅读研究——关于儿童数字阅读(2013-2015)的文献综述[J].安徽文学（下半月）,2016,0(6):138-139. 被引量：4
6董宇晖.基于Pandas的仿真应用研究[J].通信技术,2016,49(7):885-889. 被引量：3
7熊畅.基于Python爬虫技术的网页数据抓取与分析研究[J].数字技术与应用,2017,35(9):35-36. 被引量：48
8郭丽蓉.基于Python的网络爬虫程序设计[J].电子技术与软件工程,2017(23):248-249. 被引量：59
9涂小琴.基于Python爬虫的电影评论情感倾向性分析[J].现代计算机（中旬刊）,2017(12):52-55. 被引量：15
10魏冬梅,何忠秀,唐建梅.基于Python的Web信息获取方法研究[J].软件导刊,2018,17(1):41-43. 被引量：24

引证文献6

1刘娟娟,杨根福.移动端儿童数字阅读行为采集与可视化研究[J].内江科技,2021,42(5):18-19.
2沈漪,华敏敏.基于Python正则表达式的彩票信息爬取[J].安徽电子信息职业技术学院学报,2018,17(5):19-21. 被引量：3
3殷丽凤,张浩然.基于Python网上招聘信息的爬取和分析[J].电子设计工程,2019,27(20):22-26. 被引量：11
4侯波涛.基于python的通信系统数据分析[J].通信技术,2020,53(7):1715-1720. 被引量：10
5边倩,王振铎,库赵云.基于Python的招聘岗位数据分析系统的设计与实现[J].微型电脑应用,2020,36(9):18-19. 被引量：5
6郑志建,俞发仁,魏晓微,赵泳,胡长生.基于Python的职位网站爬取设计与实现[J].计算机与网络,2024,50(1):24-27.

二级引证文献29

1徐勤亚,蔡继鹏,王星.基于Python的影片数据分析[J].信息技术与信息化,2019,0(8):113-115. 被引量：4
2严家馨.基于Python对资讯信息的网络爬虫设计[J].科学技术创新,2020(5):57-58. 被引量：2
3周皎,田红梅,曲桢.基于Python语言《数据分析》实验课程知识体系的有效构建研究[J].科技创新导报,2020,17(3):203-203.
4孟田华,卢玉和,丁少军,高清兰,黄荣.基于SVM的温度预测回归模型[J].现代计算机,2020,26(20):3-6. 被引量：2
5李柯言,刘晓东.基于特征识别的网页篡改检测系统[J].电子设计工程,2020,28(18):16-19. 被引量：1
6李岩,郭凤英,翟兴,陈晓倩,佟金铎.基于jieba中文分词的在线医疗网站医生画像研究[J].医学信息学杂志,2020,41(7):14-18. 被引量：11
7叶惠仙.基于Hadoop+Hive技术的招聘网站数据分析研究[J].网络安全技术与应用,2020(12):77-79. 被引量：4
8渠婷婷.刮板输送机监测的数据挖掘与可视化分析[J].陕西煤炭,2021,40(1):9-11.
9吕泷,王毅飞,李晓燕.基于Python的高职课堂智能手机使用情况数据分析[J].科技与创新,2021(6):72-73. 被引量：1
10刘一,王跟成.基于Python的就业趋势可视化分析系统[J].信息与电脑,2021,33(5):99-101. 被引量：4

1黄春景.“最难就业年”呼唤“最佳就业心”[J].杭州（我们）,2016,0(5):36-37.
2张宝山.电商时代,个人信息如何保护?[J].中国人大,2018,0(12):27-28. 被引量：4
3郑文军.需求分析/系统分析人才需求现状研究[J].电脑知识与技术,2018,14(4):253-255.
4台达荣获“2018人力资源管理杰出奖”[J].国内外机电一体化技术,2018,0(3):5-5.
5韦锦春.基于Excel文件管理的应用研究[J].电脑编程技巧与维护,2018(5):30-32. 被引量：1
6王娜.基于Excel文件管理的应用分析[J].民营科技,2018(9):142-142.
7骚扰电话，该治治了[J].党建文汇（上半月）,2018,0(5):49-49.
8邱春霞,董乾坤,毛琴琴.在校大学生兼职网络平台建立[J].测绘通报,2017(S2):190-196. 被引量：4
9曾晗,吴际,胡健.人力资源外包机构面临的问题及解决方法——以中华英才网为例[J].现代商业,2018(17):36-37. 被引量：1
10张俊峰,魏瑞斌.国内招聘类网站的数据类岗位人才需求特征挖掘[J].情报杂志,2018,37(6):176-182. 被引量：31

无线电通信技术

2018年第4期

浏览历史

内容加载中请稍等...

基于Python的51-job数据抓取程序设计被引量：6

参考文献12

二级参考文献79

共引文献369

同被引文献37

引证文献6

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于Python的51-job数据抓取程序设计 被引量：6

参考文献12

二级参考文献79

共引文献369

同被引文献37

引证文献6

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于Python的51-job数据抓取程序设计被引量：6