Scrapy框架下区域人口数据爬虫的设计与实现被引量：8

Design and Implementation of Regional Population Data Crawler Based on Scrapy Framework

下载PDF

导出

摘要防震减灾对策研究中,区域人口数据起着至关重要的参考作用。用区域人口数据乘以一定震级下对应人口的伤亡率,可以初步判断该区域因地震导致的人员伤亡数。为减小在传统搜索引擎下人工采集数据出现的误差,提高采集海量人口数据的工作效率,以北京市人口数据为例,首先使用Xpath方式分析网页结构布局和数据分布,利用正则表达式进行数据筛选,再对网页进行多层URL爬取,直至获取到北京市社区一级的6859条数据,最后将其保存至MySQL数据库中进行持久化存储。实验结果表明,该爬虫能够有效避免人工采集数据过程中出现的数据误差,有效数据率达83.1%。数据采集过程达到高效、准确及可视化要求。 Regional population data plays an important role in the study of countermeasures for earthquake prevention and mitigation.The number of population casualties caused by earthquakes can be preliminarily judged by multiplying the population data of a region by the corresponding casualty rate under a certain earthquake magnitude.In order to improve the traditional search engine under artifi⁃cial acquisition data of data error,enhances the working efficiency of the mass population data collected at the same time,this study population data of Beijing as an example,the first to use Xpath way to analysis the structure and layout of web pages and data distribu⁃tion,and use the regular expression for data selection,multilayer on web URL crawl,until you get to Beijing to the community level 6859 data,finally save it to the MySQL database for persistent storage,valid data rate was 83.1%.Experimental results show that the crawler can effectively avoid data errors in the process of manual data collection,making the whole data collection process efficient,ac⁃curate and visual.

作者李通姚新强 LI Tong;YAO Xin-qiang(Emergency Management Institute,Institute of Disaster Prevention,Langfang 065201,China;Earthquake Disaster Prevention Center,Tianjin Earthquake Agency,Tianjin 300201,China)

机构地区防灾科技学院应急管理学院天津市地震局震害防御中心

出处《软件导刊》 2021年第11期152-157,共6页 Software Guide

关键词 Scrapy PYTHON 数据爬取地理人口数据爬虫 Scrapy Python data crawler geodemographic data crawler

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1马玉宏,谢礼立.地震人员伤亡估算方法研究[J].地震工程与工程振动,2000,20(4):140-147. 被引量：92
2曾婷婷,宫阿都,陈艳玲,杨雨晴.基于历史相似案例空间推演的地震伤亡人口评估方法研究[J].地球信息科学学报,2020,22(11):2166-2176. 被引量：8
3娄格,陈秋晓.基于“珞珈一号”夜光遥感数据融合的乡村人口空间化方法研究[J].建筑与文化,2021(1):74-75. 被引量：5
4钮心毅,林诗佳,秦思娴,岳雨峰.移动定位大数据支持城市人口规模监测的技术途径[J].当代建筑,2020(12):39-43. 被引量：7
5程增辉,夏林旭,刘茂福.基于Python的健康数据爬虫设计与实现[J].软件导刊,2019,18(2):60-63. 被引量：9
6齐鹏,李隐峰,宋玉伟.基于Python的Web数据采集技术[J].电子科技,2012,25(11):118-120. 被引量：33
7胡军伟,秦奕青,张伟.正则表达式在Web信息抽取中的应用[J].北京信息科技大学学报（自然科学版）,2011,26(6):86-89. 被引量：39
8成功,李小正,赵全军.一种网络爬虫系统中URL去重方法的研究[J].中国新技术新产品,2014(12):23-23. 被引量：14
9蔡笑伦.网络爬虫技术的发展趋势[J].科技信息,2010(12):26-26. 被引量：3
10王海玲,周志彬.基于Scrapy框架的爬虫设计[J].软件导刊,2020,19(4):224-228. 被引量：12

二级参考文献111

1王雪梅,李新,马明国.干旱区内陆河流域人口统计数据的空间化—以黑河流域为例[J].干旱区资源与环境,2007,21(6):39-47. 被引量：17
2杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
3程家喻,杨喆.唐山地震人员震亡率与房屋倒塌率的相关分析[J].地震地质,1993,15(1):82-87. 被引量：29
4崔继馨,张鹏,杨文柱.基于DOM的Web信息抽取[J].河北农业大学学报,2005,28(3):90-93. 被引量：12
5张力,陈丙咸,施畦芬.灾害中人员死亡的货币损失估算方法[J].自然灾害学报,1995,4(1):12-16. 被引量：11
6邹其嘉,毛国敏,孙振凯,马春勤,马桂明.地震人员伤亡易损性研究[J].自然灾害学报,1995,4(3):60-68. 被引量：33
7周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：155
8于山,王海霞,马亚杰.三层BP神经网络地震灾害人员伤亡预测模型[J].地震工程与工程振动,2005,25(6):113-117. 被引量：39
9赵振东,郑向远.唐山地震人员伤亡数值模拟与评估[J].地震工程与工程振动,2006,26(3):28-30. 被引量：9
10谢礼立,张晓志,周雍年.论工程抗震设防标准[J].四川地震,1996(4):14-29. 被引量：63

共引文献275

1周愉峰,陈良勇,刘思峰,李志.基于系统动力学的震后应急血液保障绩效评估[J].系统工程,2020,38(1):26-35. 被引量：14
2郭红梅,黄丁发,陈维锋,胡议员.城市地震现场搜救指挥辅助决策系统的设计与开发[J].地震研究,2008,31(1):83-88. 被引量：28
3陈通,王超.地震震害评估系统的设计与实现[J].电脑编程技巧与维护,2009(18):31-32. 被引量：1
4王艳茹,王宝光,戴君武,冯学刚,黄腾浪,唐丽华.“5·12”汶川大地震人员伤亡的时空分布特点[J].自然灾害学报,2009,18(6):52-56. 被引量：24
5谢晓峰,袁中夏,姚琳,王银.宁夏南部地区破坏性地震人员伤亡快速盲估[J].内陆地震,2009,23(4):475-481. 被引量：1
6刘双庆,邱虎,王晓青.一种基于宏观经济指标的地震灾害快速评估方法及实现[J].灾害学,2010,25(3):16-19. 被引量：5
7刘双庆,张晖,赵颖,张楠.从技术底层分析地震应急综合评估系统的运行特点——以天津市为例[J].山西地震,2010(3):39-44.
8高惠瑛,李清霞.地震人员伤亡快速评估模型研究[J].灾害学,2010,25(B10):275-277. 被引量：20
9方智阳,文进,王俊峰,石应康.地震灾害医疗应急救援推演研究[J].计算机应用研究,2011,28(1):172-174. 被引量：4
10吴立新,李志锋,王植,李金平,刘纯波.地震灾情快速评估方法和应用:以玉树地震为例[J].科技导报,2010,28(24):38-43. 被引量：19

同被引文献96

1张杰.融合大数据技术创新思政教育工作——评《大数据时代:思想政治教育环境新论》[J].山西财经大学学报,2021,43(12):139-139. 被引量：6
2谢睿,杜悦,朱家明.基于多元回归对安徽房价影响因素的计量分析[J].哈尔滨师范大学自然科学学报,2022,38(4):36-42. 被引量：1
3胡思琴,邬少飞.基于Hadoop的车辆轨迹数据预处理[J].工业技术创新,2021,8(3):15-20. 被引量：1
4程辉,黄晓春,喻文承,何莲娜,吴运超.面向城市体检评估的规划动态监测信息系统建设与应用[J].北京规划建设,2020(S01):123-129. 被引量：9
5蔡彩,陶迎春,张翼然,马磊,谢文瑄.面向城市体检的时空大数据中心建设初探[J].北京规划建设,2020(S01):115-122. 被引量：10
6龙瀛,张昭希,李派,周新宇,刘洪岐,刘兴起.北京西城区城市区域体检关键技术研究与实践[J].北京规划建设,2019,0(S02):180-188. 被引量：35
7张明,田小平,黄冬雪.大学生微博使用现状的调查及对策研究--以陕西八所高校为例[J].教育学术月刊,2013(9):42-46. 被引量：13
8陈跃国,王京春.数据集成综述[J].计算机科学,2004,31(5):48-51. 被引量：139
9贾小勇,徐传胜,白欣.最小二乘法的创立及其思想方法[J].西北大学学报（自然科学版）,2006,36(3):507-511. 被引量：138
10王曰芬,章成志,张蓓蓓,吴婷婷.数据清洗研究综述[J].现代图书情报技术,2007(12):50-56. 被引量：76

引证文献8

1牛东,吕思思.云上大数据平台建设与大学生美育教育融合的分析与设计[J].软件,2022,43(5):38-41. 被引量：1
2李海波,张睿,张志明,刘轶韬.基于大数据技术的大学生就业技能需求分析系统[J].工业控制计算机,2022,35(10):127-130. 被引量：3
3刘旭,赵舒畅,邵明珠.基于协同过滤与内容的混合推荐算法在云声乐教学方面的应用[J].工业控制计算机,2022,35(10):141-142. 被引量：4
4邓庆昌,程科.自定义目标检测数据集的收集与半自动标注[J].软件导刊,2022,21(11):116-122. 被引量：3
5李欣,崔金涛,葛昱杰.济南市国土空间规划“实时体检评估”探索研究[J].山东国土资源,2022,38(12):48-53. 被引量：1
6陈永松,罗定福.基于百度地图API的韶关市休闲农业空间数据采集[J].计算机时代,2023(2):42-45.
7毛晨希,董可扬,宋瑾钰.基于线性回归的房产分析与展示系统设计[J].软件导刊,2023,22(7):104-111.
8吕新超.Scrapy框架辅助下的Python爬虫系统研究[J].电脑知识与技术,2024,20(7):49-52.

二级引证文献12

1范围.高校就业可视化服务系统设计[J].福建电脑,2023,39(4):100-103.
2唐哲,刘艺超,方汀,施向楠,赵小军,郑运昌.基于YOLOv5和特征提取机制的作业穿戴装备检测方法研究[J].科学技术创新,2023(8):48-51.
3杨向荣.面向用户需求的数字图书馆精准推送系统设计[J].自动化与仪器仪表,2023(5):182-185. 被引量：3
4张兴宇.基于用户兴趣度的微博混合推荐算法研究[J].淮南职业技术学院学报,2023,23(4):146-149.
5张艺帆.数字虚拟技术背景下高校智慧美育建设路径研究[J].艺海,2023(8):84-88. 被引量：1
6田圻,杨佳骏,覃天.基于Hadoop平台的岗位需求分析——以计算机软件行业为例[J].软件,2023,44(8):153-155.
7李玲,崔溜洋,张文哲.面向数据集制作的图像重复性检测方法[J].现代计算机,2023,29(15):45-49.
8李青斌,邱绪云,徐文鑫.苹果采摘机械手图像数据集制作[J].山东交通学院学报,2023,31(4):18-25.
9蔡文乐,秦立静.基于Python爬虫的招聘数据可视化分析[J].物联网技术,2024,14(1):102-105. 被引量：4
10周佳乐,王文,张宇.基于内容标签的知识库推荐系统设计[J].信息与电脑,2023,35(23):134-136.

1陈丽.都市圈视角下中心城市能级提升路径研究——以盐城市为例[J].盐城师范学院学报（人文社会科学版）,2021,41(5):29-37. 被引量：2
2刘菁华.选羊标准及运输途中的处理方案[J].畜牧兽医科技信息,2021,37(9):123-124.
3刘腾达,朱君文,张一闻.FPGA加速深度学习综述[J].计算机科学与探索,2021,15(11):2093-2104. 被引量：11
4薛彩霞,谢惠良.“平均数的认识”教学片断与思考[J].小学数学教育,2021(14):95-97. 被引量：1
5胡孔玉,王竞钊.基于主成分分析法的城市化水平演化研究——以皖江城市带为例[J].应用数学进展,2021,10(10):3469-3476.
6杨龙雨禾,张贵福,杨智明,黄曦,俞林,余荣,王跃强.输尿管镜碎石致胸腹腔大量积液一例报道[J].中华腔镜泌尿外科杂志（电子版）,2021,15(6):535-536.
7周浩然,成玲.医院感染主动监测系统对提高医护人员手卫生依从性的效果评价[J].内蒙古医科大学学报,2021,43(S01):187-190. 被引量：4
8春雨,王宇栋.Python环境下金融交易数据的API调用[J].中国集体经济,2021(36):81-83. 被引量：1
9孙志略.基于控制图法的雪莲养护贴中铅含量的不确定度评定[J].福建分析测试,2021,30(5):60-62.
10唐昌华,李沅倢.商品管理系统的设计与实现[J].电脑知识与技术,2021,17(29):76-78. 被引量：2

软件导刊

2021年第11期

浏览历史

内容加载中请稍等...

Scrapy框架下区域人口数据爬虫的设计与实现被引量：8

参考文献16

二级参考文献111

共引文献275

同被引文献96

引证文献8

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

Scrapy框架下区域人口数据爬虫的设计与实现 被引量：8

参考文献16

二级参考文献111

共引文献275

同被引文献96

引证文献8

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

Scrapy框架下区域人口数据爬虫的设计与实现被引量：8