网页数据采集算法及在住户调查中的应用被引量：2

Webpage Data Acquisition Algorithm and Its Application in Household Surveys

下载PDF

导出

摘要目前网页数据获取技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了避免此类情况的发生,文章设计了一套基于Selenium的多线程网页数据采集与分析算法。该算法的数据采集部分主要应用了python中用于自动运行和操作浏览器的Selenium库,完美地解决了动态和静态页面数据信息的获取问题,无界面版本浏览器、多线程网络爬虫技术以及关键词判别程序的使用,在很大程度上提高了网络爬虫速度和抓取内容准确度。并将该算法应用到在精准扶贫形式下的住户工资性收入调查数据的准确性判别中。最后以某地区人才市场网为例,抓取各行业工资水平的实时数据,通过对调查数据与抓取数据的比较分析判别住户调查中工资数据的准确性。 At present,there are still some problems in web data acquisition technology,such as difficulty to parse dynamic web pages,slow web crawler speed,inaccurate content capture,etc.In order to avoid these problems,this paper designs a set of multi-threaded webpage data acquisition and parsing algorithm based on Selenium.The data acquisition part of the algorithm mainly applies the Selenium Library in python for automatic operation and manipulating browsers,which perfectly solves the problem of obtaining dynamic and static page data information,no interface version of the browser,multi-threaded web crawler technology,and the use of keyword discriminant program,with the speed of web crawler and the accuracy of capture content improved to a great extent.And the algorithm is applied to the accuracy discrimination of household wage income survey data in the targeted poverty alleviation.Finally,taking the talent market network of a certain regional as an example,the paper captures the real-time data of wage levels in various industries to determine the accuracy of wage data in household surveys through the comparative analysis of survey data and capture data.

作者沈承放莫达隆黄文韬 Shen Chengfang;Mo Dalong;Huang Wentao(School of Mathematics and Computer Science,Hezhou University,Hezhou Guangxi 542899,China;School of Mathematics and Statistics,Guangxi Normal University,Guilin Guangxi 541004,China)

机构地区贺州学院数学与计算机学院广西师范大学数学与统计学院

出处《统计与决策》 CSSCI 北大核心 2021年第7期52-56,共5页 Statistics & Decision

基金国家社会科学基金西部项目(18XTJ002) 广西师范大学创新计划项目(XYCSZ2019088)

关键词网页数据采集算法住户调查网络爬虫多线程精准扶贫 PYTHON SELENIUM webpage data acquisition algorithm household survey web crawler multithreading targeted poverty alleviation python Selenium

分类号 O212.1 [理学—概率论与数理统计]

引文网络
相关文献

参考文献8

1潘晓英,陈柳,余慧敏,赵逸喆,肖康泞.主题爬虫技术研究综述[J].计算机应用研究,2020,37(4):961-965. 被引量：37
2卞伟玮,王永超,崔立真,郭伟,李晖,周苗,薛付忠,刘静.基于网络爬虫技术的健康医疗大数据采集整理系统[J].山东大学学报（医学版）,2017,55(6):47-55. 被引量：31
3郭丽蓉.基于Python的网络爬虫程序设计[J].电子技术与软件工程,2017(23):248-249. 被引量：59
4熊畅.基于Python爬虫技术的网页数据抓取与分析研究[J].数字技术与应用,2017,35(9):35-36. 被引量：48
5周中华,张惠然,谢江.基于Python的新浪微博数据爬虫[J].计算机应用,2014,34(11):3131-3134. 被引量：61
6罗楚亮,李实.中国住户调查数据收入变量的比较[J].管理世界,2019,35(1):24-35. 被引量：17
7李锋.住户调查中的抽样设计问题及改进建议[J].统计与决策,2014,30(12). 被引量：2
8赵妍.城乡住户调查数据质量控制方法研究[J].中国市场,2018(34):34-35. 被引量：1

二级参考文献49

1周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
2徐远超,刘江华,刘丽珍,关永.基于Web的网络爬虫的设计与实现[J].微计算机信息,2007,23(21):119-121. 被引量：36
3TUMASJAN A, SPRENGER T O, SANDNER P G, et al. Predicting elections with Twitter: what 140 characters reveal about political sentiment[C] // Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media. Madison: AAAI Press, 2010, 10: 178-185.
4WELCH M J, SCHONFELD U, HE D, et al. Topical semantics of twitter links[C] // Proceedings of the Fourth ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2011: 327-336.
5CARLISLE J E, PATTON R C. Is social media changing how we understand political engagement? An analysis of Facebook and the 2008 presidential election[J]. Political Research Quarterly, 2013, 66(4): 883-895.
6CUNLIFFE D, MORRIS D, PRYS C. Young bilinguals' language behaviour in social networking sites: the use of welsh on Facebook[J]. Journal of Computer-Mediated Communication, 2013, 18(3): 339-361.
7STRAFLING N, KRAMER N C. Learning together on Facebook et al. The influence of social aspects and personality on the usage of social media for study related exchange [J]. Gruppendynamik und Organisationsberatung, 2013, 44(4): 409-428.
8DUAN J Y, DHOLAKIA N. The reshaping of Chinese consumer values in the social media era: exploring the impact of Weibo [J]. Journal of Macromarketing, 2013, 33(4): 402-403.
9HUANG R, SUN X. Weibo network, information diffusion and implications for collective action in China [J]. Information Communication and Society, 2014, 17(1): 86-104.
10MAZO J. Blocked on Weibo: what gets suppressed on China's version of Twitter (and why) [J]. Survival, 2013, 55(6): 191-192.

共引文献227

1刘娟娟,杨根福.移动端儿童数字阅读行为采集与可视化研究[J].内江科技,2021,42(5):18-19.
2谈帅,唐天琪,高雅.网络众源地理信息获取与整合方法研究[J].现代测绘,2021(2):53-58.
3李巧娜,汪勇.基于Python的大众点评医疗机构数据爬取与分析[J].中国科技论文在线精品论文,2022(2):270-279.
4姚万勤,宋俊豪.在技术与法律之间:网络爬虫刑法规制的边界[J].法治论坛,2023(1):3-17.
5梁晶,陈中元,张永宏,唐明灯.基于Python语言的“网络攻防技术”课程教学改革探索[J].中国多媒体与网络教学学报（电子版）,2020(14):48-50. 被引量：3
6雍龙泉,贾伟,张建科.基于爬虫技术与智能算法的网络舆情监测[J].智能计算机与应用,2021,11(4):35-38. 被引量：3
7项博良,唐淳淳,钱前,曹健东.基于网络爬虫的就业数据分析[J].智能计算机与应用,2020,10(1):223-226. 被引量：4
8王美玲,姜竹.政府转移性支出促进共同富裕了吗?——基于微观家庭数据的经验证据[J].财政研究,2023(4):32-47. 被引量：2
9李明亮,刘峰,陈硕,李强.健康体检机构文本型数据结构化处理思路[J].健康体检与管理,2021(2):151-154. 被引量：1
10童丽萍,李明.风荷载作用下玻璃幕墙结构的受力分析与计算[J].工业建筑,2000,30(4):27-30. 被引量：13

同被引文献13

1张娴,方曙,肖国华,高利丹,唐川.专利文献价值评价模型构建及实证分析[J].科技进步与对策,2011,28(6):127-132. 被引量：38
2化柏林,武夷山.多“源”信息需要多“方”融合[J].情报学报,2013,32(3). 被引量：7
3郑彦宁,刘志辉,赵筱媛,陈峰.基于多源信息与多元方法的产业竞争情报分析范式[J].情报学报,2013,32(3):228-234. 被引量：35
4化柏林.多源信息融合方法研究[J].情报理论与实践,2013,36(11):16-19. 被引量：59
5陈楚云,洪佳明,周蔚林,林国华,王正飞,张去飞,卢翠娜,卢立宏.基于数据挖掘技术构建针灸古籍经验推荐平台的方法与应用[J].中国针灸,2017,37(7):768-772. 被引量：9
6刘德喜,聂建云,万常选,刘喜平,廖述梅,廖国琼,钟敏娟,江腾蛟.基于分类的微博新情感词抽取方法和特征分析[J].计算机学报,2018,41(7):1574-1597. 被引量：18
7曾健荣,张仰森,郑佳,黄改娟,陈若愚.面向多数据源的网络爬虫实现技术及应用[J].计算机科学,2019,46(5):304-309. 被引量：44
8唐琳.微信订阅号文本采集及预处理关键技术研究[J].赤峰学院学报（自然科学版）,2019,35(11):54-56. 被引量：2
9陈锐锋,谭春林.大数据视域下知网首发的新冠肺炎专题中文论文文献计量学分析[J].科技传播,2020,12(19):10-14. 被引量：6
10黎睿臻,吴永萌,支锦亦.基于网络评论数据的无线耳机舒适性研究[J].机械设计,2020,37(9):134-139. 被引量：4

引证文献2

1靳嘉林,王曰芬,刘城,邹本涛.融合Hook机制的多源情报信息采集框架设计与应用研究[J].科技情报研究,2022,4(1):13-22. 被引量：3
2徐天浩,王子扬,沈浩,孙美凤.万维网动态文档的爬取分析[J].软件,2023,44(3):1-4.

二级引证文献3

1孟令春,孔淑莹.基于多语种的大数据资源库建设策略研究[J].电子技术与软件工程,2022(20):244-247.
2申姝婧,杨建林.“数智赋能”及其背景下的情报思维培养[J].情报学报,2023,42(4):465-476. 被引量：4
3张范军,胥刚.试析多源情报信息航迹融合处理模式[J].中国科技纵横,2023(16):95-97.

1杨松.电子信息化系统在健康扶贫工作中的应用探索[J].信息系统工程,2021,34(4):143-145.
2任福美.易地扶贫搬迁子女“促学”对策的研究——以白午小学为例[J].花溪,2021(12):0289-0289.
3编辑部建议[J].中国输血杂志,2020,33(8):813-813.
4《中国输血杂志》编辑部.编辑部建议[J].中国输血杂志,2020,33(10):1095-1095.
5杨月.Python网络爬虫技术的研究[J].电子世界,2021(10):57-58. 被引量：5
6老万.网页文字被禁止复制的解决[J].电脑爱好者,2020,0(1):51-51.
7乔雨,杨宁,谭鹏,彭浩洋,吴卫,周大建,王潇楠.大体积混凝土红外测温影响因素研究与工程应用[J].清华大学学报（自然科学版）,2021,61(7):730-737. 被引量：8
8王立梅.爬取他人作品数据传播牟利行为的评析[J].人民检察,2021(10):43-44. 被引量：1
9崔阳.一种智能的旅游线路比价决策系统[J].价值工程,2021,40(16):203-205.

统计与决策

2021年第7期

浏览历史

内容加载中请稍等...

网页数据采集算法及在住户调查中的应用被引量：2

参考文献8

二级参考文献49

共引文献227

同被引文献13

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

网页数据采集算法及在住户调查中的应用 被引量：2

参考文献8

二级参考文献49

共引文献227

同被引文献13

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

网页数据采集算法及在住户调查中的应用被引量：2