基于机器学习的历史气候重建论文智能识别与数据挖掘初探被引量：3

PRELIMINARY STUDY ON MACHINE LEARNING-BASED INTELLIGENT RECOGNITION OF HISTORICAL CLIMATE RECONSTRUCTION PAPERS AND DATA MINING

原文传递

导出

摘要本文基于机器学习方法开展了从海量的气候变化研究论文中智能识别历史气候重建论文,并提取关键信息的技术研究。首先以人工标注的1450篇古气候重建论文摘要作为样本数据,对机器学习中常见的9种分类模型进行训练和精度检验,发现极端随机树模型在此类文本中具有较高的分类精度;其次,利用这一模型对Research Gate中70万余篇气候变化相关的论文摘要进行智能分类,从中筛选出6039篇千年尺度气候重建论文摘要,并根据词云图验证了分类结果的可靠性。在此基础上,采用命名实体识别技术对6039篇论文摘要,从重建气候要素、代用资料类型和目标地区(国家)这3个维度开展了文本数据挖掘。挖掘结果表明:温度和降水是两大主要的重建要素,树轮、历史文献、沉积(含孢粉)是位居前三位的主要代用资料,这与领域专家经验基本一致;同时,重建气候要素与代用资料类型及二者的组合规律呈现鲜明的地理差异,这与区域气候特征密切相关。 It is a hot topic to carry out integrated reconstructions of historical climate changes using numerous existing single proxy-based reconstructions.To achieve the integrated reconstruction,there is a great demand to collect target papers of existing reconstructions.Taking this background,this study explored a machine learning-based technology of intelligently recognition of historical climate reconstruction papers and carried out key information mining from these papers.Firstly,we prepared a set of 1450 abstracts of published paleoclimate reconstruction papers and tagged one by one artificially with millennium-scale reconstruction and with other reconstruction.We used this set of abstracts as sample dataset to train and test nine machine learning-based classification models.We found that classification accuracy of Extra Trees model was higher than the other models.Then,we used the Extra Trees model on a set of more than 70×10^(4) abstracts of climate change research papers from the ResearchGate website.As a result,6039 abstracts for the millennium-scale climate reconstruction were selected intelligently.The reliability of the 6039 abstracts were also confirmed by comparing its word cloud to that of sample dataset.Finally,using the technology of Named-entity recognition on the 6039 abstracts,three dimensions of information,including reconstructed climate elements,proxy data categories and target regions(countries),were mined intelligently.The frequencies of key words show that on the dimension of climate elements temperature and precipitation are the two most frequently climate elements for reconstruction.On the dimension of proxy data,tree ring,historical documents and sediments(including pollen)are the three most frequently proxy data.These results keep consistent with the experts’experience of this field.The results also show that frequencies of reconstructed climate elements,proxy data categories and their combination exhibit distinct geographical differences,which may be relevant to regional climatic characteristic.

作者华萌萌尹君胡召玲张学珍 HUA Mengmeng;YIN Jun;HU Zhaoling;ZHANG Xuezhen(Key Laboratory of Land Surface Pattern and Simulation,Institute of Geographical Sciences and Natural Resources Research,Chinese Academy of Sciences,Beijing 100101;Jiangsu Normal University,Xuzhou 221116,Jiangsu;University of Chinese Academy of Sciences,Beijing 100049)

机构地区中国科学院地理科学与资源研究所江苏师范大学中国科学院大学

出处《第四纪研究》 CAS CSCD 北大核心 2021年第2期550-561,共12页 Quaternary Sciences

基金国家重点研发计划项目(批准号:2017YFA0603301) 中国科学院(A类)战略性先导科技专项项目(批准号:XDA19040101)共同资助。

关键词历史气候气候重建文本分类数据挖掘机器学习 historical climate climate reconstruction text classification data mining machine learning

分类号 P467 [天文地球—大气科学及气象学] P468 [天文地球—大气科学及气象学]

引文网络
相关文献

参考文献29

1侯一民,周慧琼,王政一.深度学习在语音识别中的研究进展综述[J].计算机应用研究,2017,34(8):2241-2246. 被引量：81
2杨保,谭明.近千年东亚夏季风演变历史重建及与区域温湿变化关系的讨论[J].第四纪研究,2009,29(5):880-887. 被引量：32
3薛莲花,赵侃,崔英方,梁怡佳,杨少华,汪永进.近2000年来东亚夏季风突变的落水洞高分辨率石笋记录[J].第四纪研究,2020,40(4):973-984. 被引量：23
4刘黎志,邓介一,吴云韬.基于HBase的多分类逻辑回归算法研究[J].计算机应用研究,2018,35(10):3007-3010. 被引量：11
5满志敏,杨煜达.中世纪温暖期升温影响中国东部地区自然环境的文献证据[J].第四纪研究,2014,34(6):1197-1203. 被引量：22
6赵胜辉,李吉月,徐碧,孙博研.基于TFIDF的社区问答系统问句相似度改进算法[J].北京理工大学学报,2017,37(9):982-985. 被引量：11
7侯光良,赖忠平,刘向军,鄂崇毅,魏海成.晚冰期以来青藏高原降水序列集成重建[J].第四纪研究,2019,39(3):615-628. 被引量：7
8Pavel Ya. Groisman,Richard W. Knight.在过去40年里出现的新趋势——北美持续旱段(英文)[J].地球科学进展,2007,22(11):1191-1207. 被引量：3
9米晓希,汤爱涛,朱雨晨,康靓,潘复生.机器学习技术在材料科学领域中的应用进展[J].材料导报,2021,35(15):15115-15124. 被引量：24
10黄文娟.基于人工智能的搜索引擎在数字图书中的应用[J].信息技术,2019,43(11):93-96. 被引量：2

二级参考文献487

1李伯重.“道光萧条”与“癸未大水”——经济衰退、气候剧变及19世纪的危机在松江[J].社会科学,2007(6):173-178. 被引量：53
2李星,田莹,段海新.中文垃圾邮件过滤系统的实现和评估[J].大连理工大学学报,2005,45(z1):189-195. 被引量：5
3冯汉中,陈永义.处理非线性分类和回归问题的一种新方法(Ⅱ)——支持向量机方法在天气预报中的应用[J].应用气象学报,2004,15(3):355-365. 被引量：122
4满志敏.历史时期柑橘种植北界与气候变化的关系[J].复旦学报（社会科学版）,1999,41(5):72-77. 被引量：20
5袁澍.元代用人政策与西域知识分子[J].新疆师范大学学报（哲学社会科学版）,1986,7(2):52-58. 被引量：1
6竺可桢.中国近五千年来气候变迁的初步研究[J].考古学报,1972(1):15-38. 被引量：1293
7张平.新疆若羌出土两件元代文书[J].文物,1987(5):91-92. 被引量：2
8王守春.楼兰国都与古代罗布泊的历史地位[J].西域研究,1996(4):43-53. 被引量：10
9于为刚.郭天锡和他的《云山日记》[J].文献,1989(2):222-232. 被引量：3
10龚高法,张丕远,张瑾瑢.十八世纪我国长江下游等地区的气候[J].地理研究,1983,2(2):20-33. 被引量：19

共引文献435

1董晗旭.数字安全风险与思政教育[J].中学政治教学参考,2022(44):44-47. 被引量：3
2马国洋.论刑事诉讼中人工智能证据的审查[J].中国刑事法杂志,2021(5):158-176. 被引量：24
3师庆科,郑涛.大型三甲医院患者智能随访语音平台设计与应用[J].中国数字医学,2021,16(8):22-27. 被引量：11
4朱梦帆,汪志成,戴诗柏.基于语谱图与稠密卷积神经网络的性别与年龄识别研究[J].仪表技术,2022(1):66-70. 被引量：3
5唐祉祎,李成静.人工智能时代下的现代翻译技术人才培养研究[J].现代英语,2020(9):63-65.
6宫文浩,兰天莹,莫清莲,杨燕,戴启刚,陈莎莎,唐子西,刘悠江,艾军.基于决策树和人工神经网络的小儿肺炎痰热闭肺证诊断模型研究[J].世界科学技术-中医药现代化,2020,22(7):2548-2555. 被引量：15
7张海瑜,陈庆龙,张斯静,张子怡,杨帆,李鑫星.基于语义知识图谱的农业知识智能检索方法[J].农业机械学报,2021,52(S01):156-163. 被引量：12
8戚兴怡,胡耀峰,王若愚,杨雅清,赵宇飞.机器学习在新材料筛选方面的应用进展[J].化学学报,2023,81(2):158-174. 被引量：4
9杜芳.基于英汉语义关联的中华民族对外交流史料知识库研究[J].湖南工业职业技术学院学报,2022,22(6):56-60.
10陈诚.机器翻译技术的综述[J].电子技术（上海）,2021,50(11):290-291. 被引量：3

同被引文献40

1陈思佳,罗志增.基于长短时记忆和卷积神经网络的手势肌电识别研究[J].仪器仪表学报,2021,42(2):162-170. 被引量：27
2雷相东.机器学习算法在森林生长收获预估中的应用[J].北京林业大学学报,2019,41(12):23-36. 被引量：27
3孙宗海,孙优贤.用于回归估计的最小二乘广义支持向量机[J].系统工程理论与实践,2004,24(7):94-97. 被引量：8
4LIANG Wan-jun,HU Hai-qing,LIU Fu-jin,ZHANG Da-ming.Research advance of biomass and carbon storage of poplar in China[J].Journal of Forestry Research,2006,17(1):75-79. 被引量：24
5罗云建,张小全,王效科,朱建华,侯振宏,张治军.森林生物量的估算方法及其研究进展[J].林业科学,2009,45(8):129-134. 被引量：163
6雷相东,张会儒,牟惠生.东北过伐林区蒙古栎林分相容性生物量模型研究[J].第四纪研究,2010,30(3):559-565. 被引量：8
7于贵瑞,方华军,伏玉玲,王秋凤.区域尺度陆地生态系统碳收支及其循环过程研究进展[J].生态学报,2011,31(19):5449-5459. 被引量：51
8曾伟生,唐守正.立木生物量方程的优度评价和精度分析[J].林业科学,2011,47(11):106-113. 被引量：178
9董利虎,李凤日,贾炜玮.东北林区天然白桦相容性生物量模型[J].林业科学,2013,49(7):75-85. 被引量：37
10曾伟生.我国杉木通用性立木生物量模型研究[J].中南林业调查规划,2013,32(4):4-11. 被引量：8

引证文献3

1刘建峰,倪健.我国主要树种类型通用生物量相对生长方程的建模比较[J].第四纪研究,2021,41(4):1169-1180. 被引量：5
2秦锋,赵艳.机器学习算法在青藏高原孢粉-气候定量重建中的尝试[J].第四纪研究,2024,44(3):704-714. 被引量：1
3曾光辉.基于匹配自主学习的网络信息识别与分类算法[J].自动化与信息工程,2024,45(3):45-50.

二级引证文献6

1吴举扬,朱江,艾训儒,姚兰,郭秋菊,薛卫星,向钦,周云,赵奂墩,闫风辰.亚热带常绿落叶阔叶混交林木本植物生物量模型数据集[J].中国科学数据（中英文网络版）,2022,7(4):336-347. 被引量：1
2吴举扬,朱江,艾训儒,姚兰,郭秋菊,闫风辰,薛卫星.亚热带常绿落叶阔叶混交林木本植物生物量模型meta分析[J].中南林业科技大学学报,2023,43(4):111-122. 被引量：1
3李泽霖,贾炜玮,郭昊天,敖子琦,赵阳.三种针叶树种节子属性通用方程的构建[J].应用生态学报,2023,34(11):2907-2918. 被引量：2
4王博,许昊,金学娟,王晓华,锁岚.立地因子对柠条生物量动态变化的影响[J].广西林业科学,2024,53(1):18-26.
5郭宾良.冀西北3种典型林分乔木层生物量研究[J].防护林科技,2024(4):66-68.
6贾云霞,吴海斌,张文超,庞红丽.始新世以来亚洲内陆干旱区的古气候定量重建[J].第四纪研究,2024,44(5):1262-1272.

1李嘉欣,王平.中文命名实体识别研究方法综述[J].计算机时代,2021(4):18-21. 被引量：7
2周祖红.巴东县马铃薯晚疫病的发生规律及防控对策[J].湖北植保,2020(6):57-58. 被引量：1
3方晓帆,李璀,吴婷飞,刘斌.非标准条件弹道诸元解算精度检验方法[J].兵工自动化,2021,40(4):45-48. 被引量：4
4惠婕.守望地球[J].世界环境,2021(1):90-91.
5崔博文,金涛,王建民.自由文本电子病历信息抽取综述[J].计算机应用,2021,41(4):1055-1063. 被引量：16
6石钦云,徐鹏,陶贞,刘帅.天山中段地区树轮气候重建与冰川波动响应分析[J].第四纪研究,2021,41(2):356-367. 被引量：16
7于听雷,张学珍,郑景云.中亚地区过去2000年气候变化研究的数据挖掘[J].第四纪研究,2021,41(2):562-576. 被引量：5
8饶志国,郭海春.北疆阿尔泰哈拉沙子高山泥炭岩芯孢粉记录是否指示全新世温度变化历史?[J].第四纪研究,2021,41(2):612-620. 被引量：7
9马洁.化石和化石艺术品[J].大自然,1990(4):16-17.
10蔡秋芳,刘禹.过去百年河南桐柏山气温变化历史及其与海气相互作用的联系[J].第四纪研究,2021,41(2):346-355. 被引量：15

第四纪研究

2021年第2期

浏览历史

内容加载中请稍等...

基于机器学习的历史气候重建论文智能识别与数据挖掘初探被引量：3

参考文献29

二级参考文献487

共引文献435

同被引文献40

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于机器学习的历史气候重建论文智能识别与数据挖掘初探 被引量：3

参考文献29

二级参考文献487

共引文献435

同被引文献40

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于机器学习的历史气候重建论文智能识别与数据挖掘初探被引量：3