随机森林算法基本思想及其在生态学中的应用--以云南松分布模拟为例被引量：134

The basic principle of random forest and its applications in ecology: a case study of Pinus yunnanensis

下载PDF

导出

摘要通常来讲,生态学者对于解释生态关系、描述格局和过程、进行空间或时间预测比较感兴趣。这些工作可以通过模拟输出值(响应)与一些特征值(即解释变量)的关系来实现。然而,生态数据模拟遇到了挑战,这是因为响应变量和预测变量可能是连续变量或离散变量。需要解释的生态关系通常是非线性的,并且解释变量之间具有复杂的相互作用关系。响应变量和解释变量存在缺失值并不是不常有的现象,奇异值也经常出现在生态数据中。此外,生态学者通常希望生态模型即要易于建立又易要于解释。通常是利用多种统计方法来分析处理各种各样情景中出现的独特的生态问题,这些模型包括(多元)逻辑回归、线性模型、生存模型、方差分析等等。随机森林是一个可以处理所有这些问题的有效方法。随机森林可以用来做分类、聚类、回归和生存分析、评估变量的重要性、检测数据中的奇异值、对缺失数据进行插补等。鉴于随机森林本身在算法上的优势,将就随机森林在生态学中的应用进行总结,对建模过程进行概述,并以云南松分布模拟研究为例,对其主要功能特点进行案例展示。通过对随机森林的一般术语、概念和建模思想进行介绍,有利于读者掌握本方法的应用本质,可以预见随机森林在生态学研究中将得到更多的应用和发展。 Ecological data are often complex. The numerical variables. The ecological relationships interactions between explanatory variables. Missing outliers almost always exist. Random forest （RF）, explanatory and the response variables may be categorical variables or that need to be defined are often nonlinear and involve high-order values for both response and predictor variables are very common, and a novel machine learning technique, is ideally suited for the analysis ofcomplex ecological data. RF predictors are a ensemble-learning approach based on regression or classification trees. Instead of building one classification tree （ classifier）, the RF algorithm builds multiple classifiers using randomly selected subsets of the observations and random subsets of the predictor variables. The predictions from the ensemble of trees are then averaged in the case of regression trees, or tallied using a voting system for classification trees. RF is efficient to support flexible modelling strategies. RF is capable of detecting and making use of more complex relationships among the variables. RF is unexcelled in accuracy among current algorithms and does not overfit. It also generates an internal unbiased estimate of the generalization error as the forest building progresses. Potential applications of RF to ecology include： classification and regression analysis, survival analysis, variable importance estimate and data proximities. Proximities can be used for clustering, detecting outliers, multi-dimensional scaling, and unsupervised classification. RF can interpolate missing value and maintain high accuracy even when a large proportion of the data are missing. RF can handle thousands of input variables without variable exclusion. It runs efficiently on large data bases. RF can also handle a spectrum of response types, including categorical, numeric, ratings, and survival data. Another advantage of the RF is that it requires only two user- defined parameters （The number of trees and the number of randomly selected predictive variables used to split the nodes） to be defined. These two parameters should be optimized in order to improve predictive accuracy. In recent years, RF has been widely used by ecologists to model complex ecological relationships because they are easy to implement and easy to interpret. To understand and use the RF, further information about how they are computed is useful. Here, we summarized the basic principle of RF and showed how RF handle complex data by modelling the geographical distribution of Yunan Pine （Pinus yunnanensis） in China. RF is a robust and widely used technique in the field of species distribution modelling （ SDM）, since it meets the basic needs of SDM ： simulating species distribution and identifying the main drivers of species distribution. In this work, RF showed a high predictive performance in simulating the distribution of Yunan Pine, which was consistent with the multi-dimensional scaling plot that showed it was possible to separate the presences from the absences. We also estimated the relative importance of predictor variables and produced the partial dependence plots for selected predictor variables for random forest predictions of the presences of Yunan Pine. The main aim of the article is to familiarize the reader with the general concepts, terminology and basic principle behind RF. We believe RF will get more applications and development in ecology.

作者张雷王琳琳张旭东刘世荣孙鹏森王同立

机构地区中国林业科学研究院林业研究所、国家林业局林木培育重点实验室北京林业大学林学院中国林业科学研究院森林生态环境与保护研究所、国家林业局森林生态环境重点实验室 Department of Forest Sciences

出处《生态学报》 CAS CSCD 北大核心 2014年第3期650-659,共10页 Acta Ecologica Sinica

基金国家自然科学基金资助项目(41301056,31290223) 中央公益性院所基本科研业务专项资助项目(RIF2012-04) 林业公益性行业科研专项资助项目(201104006,200804001) 国家“十二五”科技支撑项目课题资助项目(2011BAD38B04)

关键词随机森林分类回归树变量重要性多维数据物种分布模拟 random forest classification and regression tree variable importance multi-dimensional scaling speciedistribution modelling

分类号 S718.5 [农业科学—林学] S114 [农业科学—农业基础科学]

引文网络
相关文献

参考文献2

1张雷,刘世荣,孙鹏森,王同立.气候变化对物种分布影响模拟中的不确定性组分分割与制图--以油松为例[J].生态学报,2011,31(19):5749-5761. 被引量：35
2张雷,刘世荣,孙鹏森,王同立.气候变化对马尾松潜在分布影响预估的多模型比较[J].植物生态学报,2011,35(11):1091-1105. 被引量：65

二级参考文献13

1郭泉水,徐德应,阎洪.气候变化对油松地理分布影响的研究[J].林业科学,1995,31(5):393-402. 被引量：24
2曹铭昌,周广胜,翁恩生.广义模型及分类回归树在物种分布模拟中的应用与比较[J].生态学报,2005,25(8):2031-2040. 被引量：67
3贺庆棠,袁嘉祖,陈志泊.气候变化对马尾松和云南松分布的可能影响[J].北京林业大学学报,1996,18(1):22-28. 被引量：23
4王娟,倪健.植物种分布的模拟研究进展[J].植物生态学报,2006,30(6):1040-1053. 被引量：41
5李峰,周广胜,曹铭昌.兴安落叶松地理分布对气候变化响应的模拟[J].应用生态学报,2006,17(12):2255-2260. 被引量：74
6沈泽昊,赵俊.基于植物-地形关系的物种丰富度空间格局预测——GAMs途径的一种应用[J].生态学报,2007,27(3):953-963. 被引量：29
7杨雪冬.几种针叶树叶中β—胡萝卜素含量的测定[J].国土与自然资源研究,1990(4):74-75. 被引量：1
8江志红,张霞,王冀.IPCC-AR4模式对中国21世纪气候变化的情景预估[J].地理研究,2008,27(4):787-799. 被引量：111
9吕佳佳,吴建国.气候变化对植物及植被分布的影响研究进展[J].环境科学与技术,2009,32(6):85-95. 被引量：53
10邵慧,田佳倩,郭柯,孙建新.样本容量和物种特征对BIOCLIM模型模拟物种分布准确度的影响--以12个中国特有落叶栎树种为例[J].植物生态学报,2009,33(5):870-877. 被引量：50

共引文献89

1王洪军.对上颌骨缺损修复的探索[J].锦州医学院学报,2000,21(1):56-57.
2宁攸凉,吴水荣,李智勇,刘世荣,陈绍志.基于区域植被类型评估的气候变化对中国森林生态系统的影响[J].生态学杂志,2013,32(8):1967-1972. 被引量：4
3李国庆,刘长成,刘玉国,杨军,张新时,郭柯.物种分布模型理论研究进展[J].生态学报,2013,33(16):4827-4835. 被引量：132
4贺伟,布仁仓,刘宏娟,熊在平,胡远满.气候变化对东北沼泽湿地潜在分布的影响[J].生态学报,2013,33(19):6314-6319. 被引量：8
5彭丽潭,晏寒冰,唐旭清.丹顶鹤繁殖地气候数据特征的聚类分析[J].计算机应用研究,2014,31(3):747-752. 被引量：2
6毕猛,杜婷,马思佳,石雷.基于气象因子的杨树溃疡病发生率空间格局研究[J].林业科学研究,2014,27(1):24-30. 被引量：3
7蔡静芸,张明明,粟海军,张海波.生态位模型在物种生境选择中的应用研究[J].经济动物学报,2014,18(1):47-52. 被引量：53
8代劲松,曹林,王婧琦,汪贵斌.中国亚热带地区油茶温度适宜性及其变化趋势[J].中南林业科技大学学报,2014,34(2):20-25. 被引量：18
9姜建福,樊秀彩,张颖,魏伟,康定明,刘崇怀.中国三种濒危葡萄属(Vitis L.)植物的地理分布模拟[J].生态学杂志,2014,33(6):1615-1622. 被引量：9
10晏寒冰,彭丽潭,唐旭清.基于气候变化的东北地区森林树种分布预测建模与影响分析[J].林业科学,2014,50(5):132-139. 被引量：11

同被引文献1945

1赵亮,李奇,赵新全.三江源草地多功能性及其调控途径[J].资源科学,2020,0(1):78-86. 被引量：14
2李宏勋,聂慧.基于灰色-偏最小二乘组合模型的中国天然气需求预测[J].资源与产业,2019,21(6):9-19. 被引量：13
3夏润亮,刘启兴,李涛,刘晓燕,高云飞,吴丹.基于集成学习的黄河未控区径流预测研究[J].应用基础与工程科学学报,2020(3):740-749. 被引量：7
4LI Man,WANG Zhuo Qun,ZHANG Lu,ZHENG Hao,LIU Dian Wu,ZHOU Mai Geng.Burden of Cirrhosis and Other Chronic Liver Diseases Caused by Specific Etiologies in China, 1990-2016:Findings from the Global Burden of Disease Study 2016[J].Biomedical and Environmental Sciences,2020,33(1):1-10. 被引量：53
5杨光,袁思博,舒立福,宁吉彬,孙思琦,邸雪颖.森林火灾中高能量火——飞火研究进展[J].世界林业研究,2020,33(1):20-25. 被引量：7
6冯浩,杨祯婷,陈浩,吴莉鸿,李成,王乃江.基于无人机多光谱影像的夏玉米SPAD估算模型研究[J].农业机械学报,2022,53(10):211-219. 被引量：10
7蒋姣,孙哲,赵思远,陈士亮,金思慧,陈菁.淮安市耕地时空变化特征及其驱动因素[J].农业工程,2020(12):63-69. 被引量：7
8王莉莉,李艳红,吴浠.艾比湖湿地土壤CO2、CH4和N2O排放通量及其影响因素研究[J].江西农业,2019,0(24):126-129. 被引量：1
9欧阳晓,贺清云,朱翔.多情景下模拟城市群土地利用变化对生态系统服务价值的影响——以长株潭城市群为例[J].经济地理,2020,40(1):93-102. 被引量：86
10雷相东.机器学习算法在森林生长收获预估中的应用[J].北京林业大学学报,2019,41(12):23-36. 被引量：26

引证文献134

1陈绎冰,李天依,李欣艳,赵文川,范荣峰,陈凤娇,杨元建.基于随机森林和遥感的台风降水云光谱与降水关系研究[J].遥感技术与应用,2022,37(5):1277-1288. 被引量：1
2付旭东,王金艳,李龙燕,陈金车,苏士翔,常伟,王明.基于随机森林算法的风场预报[J].兰州大学学报（自然科学版）,2021,57(4):503-509. 被引量：6
3李文娟,赵放,郦敏杰,陈列,彭霞云.基于数值预报和随机森林算法的强对流天气分类预报技术[J].气象,2018,44(12):1555-1564. 被引量：35
4王丽爱,马昌,周旭东,訾妍,朱新开,郭文善.基于随机森林回归算法的小麦叶片SPAD值遥感估算[J].农业机械学报,2015,46(1):259-265. 被引量：87
5桑满杰,卫海燕,毛亚娟,尚忠慧,顾蔚.基于随机森林的我国荞麦适宜种植区划及评价[J].山东农业科学,2015,47(7):46-52. 被引量：5
6陈蜀蓉,张超,郑超超,张伟,伊力塔,余树全.公益林生物量估算方法研究——以浙江省缙云县公益林为例[J].浙江林业科技,2015,35(5):20-28. 被引量：4
7梁慧玲,林玉蕊,杨光,苏漳文,王文辉,郭福涛.基于气象因子的随机森林算法在塔河地区林火预测中的应用[J].林业科学,2016,52(1):89-98. 被引量：49
8张颖,高倩倩.基于随机森林分类算法的巢湖水质评价[J].环境工程学报,2016,10(2):992-998. 被引量：35
9罗超.面向高维数据的随机森林算法优化探讨[J].商,2016,0(4):207-207. 被引量：1
10梁慧玲,郭福涛,苏漳文,王文辉,林芳芳,林玉蕊.基于随机森林算法的福建省林火发生主要气象因子分析[J].火灾科学,2015,24(4):191-200. 被引量：16

二级引证文献1303

1杜国芳,周丽,许光扬,蔡彦,马殿旭.大学物理动量定理教学与生命安全教育[J].昭通学院学报,2022,44(5):115-118.
2祁伟彦,王玉庭,李哲敏.宅基地退出对农户生计资本的影响研究——以江苏省徐州市为例[J].中国农业资源与区划,2021,42(12):194-202. 被引量：11
3王珊,冯仲科,郁壮,张瀚月.模拟降雨下以小时为步长的崇礼区典型林分地表细小死可燃物含水率预测模型[J].应用与环境生物学报,2023,29(4):913-921. 被引量：1
4王冰,向黎.武汉市生产-生活-生态格局演变特征及机制分析[J].信息技术与管理应用,2023(6):131-143.
5汤显强.长江流域水体富营养化演化驱动机制及防控对策[J].人民长江,2020,51(1):80-87. 被引量：23
6杨子,潘鑫,袁洁,宋昊,许坤,吴宇航,杨英宝.基于随机森林算法的卫星监测太湖蓝藻数据集(2019)[J].全球变化数据学报（中英文）,2023,7(3):321-326.
7刘艺,杨歆佳,刘劲松.基于随机森林的人口密度模型优化试验研究[J].全球变化数据学报（中英文）,2020,4(4):402-416. 被引量：4
8苑迎春,周毅,宋宇斐,徐铮,王克俭.基于信息熵特征选择的小麦冠层叶绿素含量估测方法[J].农业机械学报,2022,53(8):186-195. 被引量：4
9冯建英,苏允汇,龚劭齐,王智,穆维松.基于集成学习的农业生产技术效率评价方法[J].农业机械学报,2021,52(S01):148-155. 被引量：6
10周莹,叶德成,张慧艳,尚志强.浑善达克沙地植被恢复的研究[J].内蒙古水利,2023(7):5-6.

1刘华,王建国.分类回归树在故障诊断中的应用研究[J].设备管理与维修,2005(12):12-14.
2王玉杰,张大克.种群在两空间内分布的数学模拟[J].天津科技大学学报,2005,20(2):51-53.
3李久会,袁泉,吴中立,孟凡顺.室内声场中点声源的算法与模拟[J].辽宁工业大学学报（自然科学版）,2009,29(3):208-210. 被引量：1
4李生彪,黄世华.数学建模中矩阵的应用[J].甘肃联合大学学报（自然科学版）,2012,26(1):22-26. 被引量：6
5罗超.面向高维数据的随机森林算法优化探讨[J].商,2016,0(4):207-207. 被引量：1
6池雄标.回归预测与灰色预测比较[J].韶关大学学报,1993,14(2):47-51.
7郝林.用均匀分布模拟同分布中心极限定理[J].天津轻工业学院学报,1993(1):77-83.
8李勇,王建波.分类回归树中分裂法则的相合性质[J].北京师范大学学报（自然科学版）,2002,38(1):15-22. 被引量：2
9孔祥强.基于Mathematica软件在常微分方程初值问题中的可视化[J].长春师范大学学报,2015,34(10):20-25. 被引量：2
10等离子体表面工艺的经济和生态问题[J].等离子体应用技术快报,1994(4):1-2.

生态学报

2014年第3期

浏览历史

内容加载中请稍等...

随机森林算法基本思想及其在生态学中的应用--以云南松分布模拟为例被引量：134

参考文献2

二级参考文献13

共引文献89

同被引文献1945

引证文献134

二级引证文献1303

相关作者

相关机构

相关主题

浏览历史

随机森林算法基本思想及其在生态学中的应用--以云南松分布模拟为例 被引量：134

参考文献2

二级参考文献13

共引文献89

同被引文献1945

引证文献134

二级引证文献1303

相关作者

相关机构

相关主题

浏览历史

随机森林算法基本思想及其在生态学中的应用--以云南松分布模拟为例被引量：134