-
题名Scrapy框架下区域人口数据爬虫的设计与实现
被引量:8
- 1
-
-
作者
李通
姚新强
-
机构
防灾科技学院应急管理学院
天津市地震局震害防御中心
-
出处
《软件导刊》
2021年第11期152-157,共6页
-
文摘
防震减灾对策研究中,区域人口数据起着至关重要的参考作用。用区域人口数据乘以一定震级下对应人口的伤亡率,可以初步判断该区域因地震导致的人员伤亡数。为减小在传统搜索引擎下人工采集数据出现的误差,提高采集海量人口数据的工作效率,以北京市人口数据为例,首先使用Xpath方式分析网页结构布局和数据分布,利用正则表达式进行数据筛选,再对网页进行多层URL爬取,直至获取到北京市社区一级的6859条数据,最后将其保存至MySQL数据库中进行持久化存储。实验结果表明,该爬虫能够有效避免人工采集数据过程中出现的数据误差,有效数据率达83.1%。数据采集过程达到高效、准确及可视化要求。
-
关键词
Scrapy
PYTHON
数据爬取
地理人口数据
爬虫
-
Keywords
Scrapy
Python
data crawler
geodemographic data
crawler
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-