面向历史灾害地震的Web信息精确抽取与分析方法被引量：4

A Method of Accurate Extraction and Analysis of Web Data on Historical Disaster Earthquakes

下载PDF

导出

摘要以中国大陆地区灾害地震目录为基础,选取2010—2019年灾害地震的互联网信息,提出基于百度搜索引擎的信息获取技术,并以“时间、地名、震级”为关键词,设计一套URL生成规则。使用该技术进行百度检索,得到前100个站点的主体文字信息,建立地震信息基础语料库,形成灾害地震的网络灾情信息获取方法;通过采用已有的停用词词库剔除无用信息,对爬取到的信息进行初步清洗工作,进一步深入挖掘隐含信息,探索灾害关联关系,为震后互联网灾情信息快速获取建立基础。 Taking the earthquake catalogs from the Internet information of earthquakes between 2010 to 2019 in China's Mainland as an example,we propose an information acquisition technique based on Baidu search engine,and generate a set of URL generation rules with “time,place name,magnitude” as keywords. The first 100 sites retrieved by Baidu by using this technique are used to build a basic corpus of earthquake information and to form a method for acquiring Internet disaster information on earthquakes. The existing deactivation thesaurus is used to eliminate useless information,and then to conduct preliminary cleaning of the crawled information. The further digging into the implied information is performed in order to explore disaster correlations,and to establish a basis for rapid acquisition of Internet disaster information after earthquakes.

作者文鑫涛郑通彦王钟浩李华玥李晨曦吕文超 Wen Xintao;Zheng Tongyan;Wang Zhonghao;Li Huayue;Li Chenxi;LüWenchao(China Earthquake Networks Center,Beijing 100045,China;Institute of Disaster Prevention,Sanhe 065201,Hebei,China)

机构地区中国地震台网中心防灾科技学院

出处《中国地震》北大核心 2021年第4期819-828,共10页 Earthquake Research in China

基金地震应急信息快速可视化技术研究(2018YFC1504506)资助。

关键词灾害地震 WEB信息抽取灾情信息获取数据分析 Disaster earthquake Web information extraction Disaster information acquisition Data analysis

分类号 P315 [天文地球—地震学]

引文网络
相关文献

参考文献5

1封化民,刘飚,刘艳敏,方勇,宋国森.含有位置坐标树的Web页面分析和内容提取框架[J].清华大学学报（自然科学版）,2005,45(S1):1767-1771. 被引量：8
2庞晓克,聂高众,张昕,李华玥,夏朝旭,范熙伟,魏本勇.基于手机位置数据的地震灾情指标选择[J].中国地震,2019,35(1):144-157. 被引量：8
3张恺航,徐克付,张闯.基于通配符节点话题权重的Web新闻抽取方法[J].计算机工程,2019,45(4):275-280. 被引量：3
4张开敏.一种并行的网页解析算法[J].小型微型计算机系统,2014,35(2):193-198. 被引量：1
5张儒清,郭岩,刘悦,俞晓明,程学旗.任意网页的主题信息抽取研究[J].中文信息学报,2017,31(5):127-137. 被引量：6

二级参考文献36

13GPP. 3GPP-LTE [ EB/OL]. http://www. 3gpp. org/LTE,2012.
2RFC. Caching in I-ITrP[ EB/OL]. http://www, w3. org/Proto- cols/rfc2616/rfc2616-sec13, html, 1996.
3Rhea S C, Liang K, Brewer E. Value-based Web caching [ C ]. Proceedings of the 12th International Conference on World Wide Web, 2003: 619-628.
4Mickens J. Silo: exploiting JavaScript and DOM storage for faster page loadsE C]. Proceedings of the 2010 USENIX Conference onWeb Application Development, 2010.
5Webkit. SunSpider JavaScript benchmark [ EB/OL]. http:// www. webkit, org/perf/sunspider/sunspider, html, 2010.
6Google. V8 JavaScript engine[EB/OL], http://code, google. com/p/v8/, 2008.
7Zhang K, Wang L, Pan A, et al. Smart caching for web browsers [C]. Proceedings of the 19th International Conference on World Wide Web, 2010: 491-500.
8Mesbah A, Mirshokraie S. Automated analysis of CSS rules to sup- port style maintenance[ C ]. Proceedings of the 2012 International Conference on Software Engineering, 2012: 408-418.
9Weber J. A closer look at Intemet explorer 9 hardware acceleration through flying images [ EB/OL 1. http ://blogs. msdn. com/b/ie/ archive/2O l O /O4 /O7 / a-closer-look-at-intemet-explorer-9 -hardware- acceleration-through-flying-images, aspx, 2010.
10Yahoo. Best practices for speeding up your Web site [ EB/OL ]. http://developer, yahoo, com/performance/rules, html, 2008.

共引文献21

1蒲强,李鑫,刘启和,杨国纬.一种Web主题文本通用提取方法[J].计算机应用,2007,27(6):1394-1396. 被引量：5
2时达明,林鸿飞,杨志豪.基于网页框架和规则的网页噪音去除方法[J].计算机工程,2007,33(19):276-278. 被引量：17
3王建冬,王继民,田飞佳.一种基于内容规则的网页去噪算法[J].现代图书情报技术,2008(3):51-54. 被引量：4
4任小燕,康小军,张红卫.基于动态隧道算法的网络爬行器设计与实现[J].现代图书情报技术,2008(6):83-87.
5毛先领,何靖,闫宏飞.网页去噪:研究综述[J].计算机研究与发展,2010,47(12):2025-2036. 被引量：18
6罗国涛,马在强.基于文本特征的Deep Web分类研究[J].计算机与现代化,2012(10):58-61.
7田丽.情报分析中提取主题信息核心要素的模型及方法[J].计算机与现代化,2018(10):22-25.
8刘博文,王雨琪,林果园.基于结构化文档的钓鱼网站检测算法[J].计算机工程与设计,2019,40(10):2791-2798. 被引量：3
9崔彦青.动态分块网页主题信息准确自动提取仿真[J].计算机仿真,2019,36(10):349-352. 被引量：2
10吉晓香,蒋晔.基于数据属性的无线网络空间嵌入信息提取[J].计算机仿真,2020,37(9):347-351.

同被引文献42

1魏景龙.智能矿山建设研究[J].工矿自动化,2021,47(S01):19-20. 被引量：10
2蔡晓妍,戴冠中,杨黎斌.谱聚类算法综述[J].计算机科学,2008,35(7):14-18. 被引量：189
3寇月,李冬,申德荣,于戈,聂铁铮.D-EEM:一种基于DOM树的Deep Web实体抽取机制[J].计算机研究与发展,2010,47(5):858-865. 被引量：17
4陈文方,徐伟,史培军.长三角地区台风灾害风险评估[J].自然灾害学报,2011,20(4):77-83. 被引量：50
5郭建兵,崔志明,陈明,赵朋朋.基于DOM树与领域本体的Web抽取方法[J].计算机工程,2012,38(5):56-58. 被引量：6
6黄武冠,朱明,尹文科.基于DOM树和视觉特征的网页信息自动抽取[J].计算机工程,2013,39(10):309-312. 被引量：6
7顾韵华,高原,高宝,杜杰.基于模板和领域本体的Deep Web信息抽取研究[J].计算机工程与设计,2014,35(1):327-332. 被引量：16
8李萍,朱建波,周立新,廖彬.基于快速构建模板的购物信息抽取方法[J].计算机应用,2014,34(3):733-737. 被引量：4
9罗芳,李春花,周可,黄永峰,廖正霜.基于多属性的海量Web数据关联存储及检索系统[J].计算机工程与科学,2014,36(3):404-410. 被引量：11
10陈巧灵,廖祥文,魏晶晶,陈国龙.基于DOM树层次特征的多记录网页抽取[J].模式识别与人工智能,2015,28(2):125-131. 被引量：7

引证文献4

1张晓涵,吕金鑫.挖掘社交媒体数据探究自然灾害时公众注意力的变化[J].北京测绘,2022,36(9):1171-1176. 被引量：2
2崔美玲,王永杰.天津市历史自然灾害风险水平评估[J].城市勘测,2023(4):30-34.
3王平.Web框架下的体检信息采集终端流程标准化系统研究[J].自动化技术与应用,2024,43(2):107-111. 被引量：1
4吴克介.煤矿安全Web数据采集技术研究及应用[J].能源与环保,2024,46(10):14-20.

二级引证文献3

1陈小敏,苏健光,欧文辉.基于Python语言数据服务平台设计与实现[J].信息与电脑,2023,35(11):126-129.
2陈治瑀.智能农机作业信息采集终端设计[J].农机使用与维修,2024(8):38-41.
3武进.基于大规模群体决策方法的滑坡治理方案选择[J].内江师范学院学报,2024,39(8):41-47.

1夏训文.江西永丰地区矿山地质灾害发育分布及演化特征分析[J].世界有色金属,2020,45(23):231-232. 被引量：1
2尚永敏,赵榆琴.基于机器学习的在线评论情感分析与实现[J].大理大学学报,2021,6(12):80-86. 被引量：6
3钱庚,冯蔚.2020年全球地震灾害概要[J].地震科学进展,2021,51(7):289-296. 被引量：9
4完么措.新课程理念下高中物理高效课堂教学[J].传奇故事,2021(22):49-50.
5徐翔宇,马睿,李原园,郦建强,李云玲.水利管理技术工作思路探讨[J].水利技术监督,2022(1):55-57. 被引量：8
6李家成,叶哲江,杨嘉林,张鹏飞.基于DSception模块和注意力机制的皮肤病分类识别[J].电视技术,2021,45(8):133-139.
7何晓云,许江淳,陈文绪.基于改进U-Net网络的眼底血管图像分割研究[J].电子测量与仪器学报,2021,35(10):202-208. 被引量：21
8朱梦琦.出好“组合拳”打好冬季保电攻坚战[J].农电管理,2022(1):11-11.
9吴伟楠,陈鸣,邓理.IRDA:一种灵活获取NFV对象信息的机制[J].计算机技术与发展,2021,31(12):98-104. 被引量：1
10谢美英.基于Anaconda的婴儿用品数据爬取及可视化分析[J].现代信息科技,2021,5(14):90-93. 被引量：2

中国地震

2021年第4期

浏览历史

内容加载中请稍等...

面向历史灾害地震的Web信息精确抽取与分析方法被引量：4

参考文献5

二级参考文献36

共引文献21

同被引文献42

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

面向历史灾害地震的Web信息精确抽取与分析方法 被引量：4

参考文献5

二级参考文献36

共引文献21

同被引文献42

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

面向历史灾害地震的Web信息精确抽取与分析方法被引量：4