期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
Mapping landslide susceptibility at the Three Gorges Reservoir, China, using gradient boosting decision tree,random forest and information value models 被引量:9
1
作者 CHEN Tao ZHU Li +3 位作者 NIU Rui-qing TRINDER C John PENG Ling LEI Tao 《Journal of Mountain Science》 SCIE CSCD 2020年第3期670-685,共16页
This work was to generate landslide susceptibility maps for the Three Gorges Reservoir(TGR) area, China by using different machine learning models. Three advanced machine learning methods, namely, gradient boosting de... This work was to generate landslide susceptibility maps for the Three Gorges Reservoir(TGR) area, China by using different machine learning models. Three advanced machine learning methods, namely, gradient boosting decision tree(GBDT), random forest(RF) and information value(InV) models, were used, and the performances were assessed and compared. In total, 202 landslides were mapped by using a series of field surveys, aerial photographs, and reviews of historical and bibliographical data. Nine causative factors were then considered in landslide susceptibility map generation by using the GBDT, RF and InV models. All of the maps of the causative factors were resampled to a resolution of 28.5 m. Of the 486289 pixels in the area,28526 pixels were landslide pixels, and 457763 pixels were non-landslide pixels. Finally, landslide susceptibility maps were generated by using the three machine learning models, and their performances were assessed through receiver operating characteristic(ROC) curves, the sensitivity, specificity,overall accuracy(OA), and kappa coefficient(KAPPA). The results showed that the GBDT, RF and In V models in overall produced reasonable accurate landslide susceptibility maps. Among these three methods, the GBDT method outperforms the other two machine learning methods, which can provide strong technical support for producing landslide susceptibility maps in TGR. 展开更多
关键词 MAPPING LANDSLIDE SUSCEPTIBILITY gradient BOOSTING decision tree Random forest Information value model Three Gorges Reservoir
下载PDF
Linear and Nonlinear Trading Models with Gradient Boosted Random Forests and Application to Singapore Stock Market
2
作者 Qin Qin Qing-Guo Wang +1 位作者 Jin Li Shuzhi Sam Ge 《Journal of Intelligent Learning Systems and Applications》 2013年第1期1-10,共10页
This paper presents new trading models for the stock market and test whether they are able to consistently generate excess returns from the Singapore Exchange (SGX). Instead of conventional ways of modeling stock pric... This paper presents new trading models for the stock market and test whether they are able to consistently generate excess returns from the Singapore Exchange (SGX). Instead of conventional ways of modeling stock prices, we construct models which relate the market indicators to a trading decision directly. Furthermore, unlike a reversal trading system or a binary system of buy and sell, we allow three modes of trades, namely, buy, sell or stand by, and the stand-by case is important as it caters to the market conditions where a model does not produce a strong signal of buy or sell. Linear trading models are firstly developed with the scoring technique which weights higher on successful indicators, as well as with the Least Squares technique which tries to match the past perfect trades with its weights. The linear models are then made adaptive by using the forgetting factor to address market changes. Because stock markets could be highly nonlinear sometimes, the Random Forest is adopted as a nonlinear trading model, and improved with Gradient Boosting to form a new technique—Gradient Boosted Random Forest. All the models are trained and evaluated on nine stocks and one index, and statistical tests such as randomness, linear and nonlinear correlations are conducted on the data to check the statistical significance of the inputs and their relation with the output before a model is trained. Our empirical results show that the proposed trading methods are able to generate excess returns compared with the buy-and-hold strategy. 展开更多
关键词 Stock modeling SCORING TECHNIQUE Least Square TECHNIQUE RANDOM forest gradient Boosted RANDOM forest
下载PDF
基于随机森林和XGBoost算法构建心脏骤停患者自主循环恢复后神经功能预后不良的风险预测模型
3
作者 桑珍珍 崔杰 +2 位作者 闫寒 王维峰 庞秀艳 《中国急救医学》 CAS CSCD 2024年第7期577-585,共9页
目的 利用机器学习算法构建预测心脏骤停(CA)患者自主循环恢复(ROSC)后神经功能预后不良的预测模型,探索结局相关因子。方法 回顾性收集2016年1月至2024年1月沧州市中心医院收治的CA行心肺复苏(CPR)后ROSC的患者481例为研究对象。收集... 目的 利用机器学习算法构建预测心脏骤停(CA)患者自主循环恢复(ROSC)后神经功能预后不良的预测模型,探索结局相关因子。方法 回顾性收集2016年1月至2024年1月沧州市中心医院收治的CA行心肺复苏(CPR)后ROSC的患者481例为研究对象。收集患者临床资料,根据患者转出重症监护病房(ICU)时的格拉斯哥-匹兹堡脑功能表现分级(CPC)评分,将其分为预后良好组(GNO,n=158)和预后不良组(PNO,n=323)。481例患者按7∶3随机分为训练集(n=338)和测试集(n=143),训练集用于构建模型,测试集用评价模型效能。利用极端梯度提升(XGBoost)和随机森林(RF)两种机器学习算法构建患者神经功能预后不良的预测模型,分别得出影响患者神经功能预后的变量,应用SHAP进行XGBoost模型可解释性分析。将XGBoost和RF算法得出的变量取交集,再将交集变量进行多因素Logistic回归分析,得到差异有统计学意义的变量,进而构建决策树模型。在训练集和测试集上利用受试者工作特征(ROC)曲线和曲线下面积(AUC)评估决策树模型的预测性能。结果 通过XGBoost模型得到与神经功能预后不良相关的变量15个,RF模型得到与神经功能预后不良相关的变量14个,两种模型取交集得到11个与神经功能预后不良相关的交集变量[视神经鞘直径(ONSD)变化率、神经元特异性烯醇化酶(NSE)、入ICU第3天ONSD(ONSD day3)、心脏骤停至心肺复苏(CA-CPR)时间、ROSC时间、急性生理学与慢性健康状况评价Ⅱ(APACHEⅡ)评分、血肌酐、白蛋白、住ICU时间、血乳酸及年龄]。将这11个交集变量进行多因素Logistic回归分析,结果显示,PNO组与GNO组ONSD变化率、NSE、ONSD day3、ROSC时间及年龄这5个变量差异有统计学意义(P<0.05)。用这5个重要变量构建决策树模型,得出3个与患者神经功能预后不良最相关的变量(NSE、ROSC时间及ONSD变化率),在训练集上的决策树模型预测CA行CPR后ROSC患者神经功能预后不良的AUC为0.857(95%CI 0.809~0.903,P<0.001),在测试集上的AUC为0.834 (95%CI 0.761~0.906,P<0.001)。结论 基于XGBoost和RF这2种机器学习方法构建的决策树模型能够更准确地评估CA患者ROSC后神经功能的不良预后,且评价指标可能简化为NSE、ROSC时间及ONSD变化率。 展开更多
关键词 心脏骤停 自主循环恢复 神经功能 预测模型 随机森林 极端梯度提升
下载PDF
基于多中心队列数据的机器学习预测重症感染患儿死亡风险和筛选临床特征的研究
4
作者 朱雪梅 陈申成 +4 位作者 章莹莹 陆国平 叶琪 阮彤 郑英杰 《中国循证儿科杂志》 CSCD 北大核心 2024年第1期31-35,共5页
背景科学、有效地预测重症感染患儿死亡关联因素对降低儿童病死率意义重大。既往重症患儿的病情与死亡关系多采用评分预测(如PCIS等),准确度欠佳。目的通过机器学习联合特征筛选的方法,挖掘对重症感染患儿死亡风险具有早期预警作用的敏... 背景科学、有效地预测重症感染患儿死亡关联因素对降低儿童病死率意义重大。既往重症患儿的病情与死亡关系多采用评分预测(如PCIS等),准确度欠佳。目的通过机器学习联合特征筛选的方法,挖掘对重症感染患儿死亡风险具有早期预警作用的敏感指标。设计队列研究。方法基于全国20个省级行政区域的54家PICU的儿童多中心感染性疾病协作网数据库,纳入年龄>28天至18岁、确诊感染和至少有1个器官发生功能障碍的患儿,统计122项临床特征信息,以出PICU时死亡/恶化或治愈/好转为结局,通过机器学习构建逻辑回归模型(LR)、随机森林模型(RF)、极端梯度提升树(XGB)和反向传播神经网络(BP),筛选重要的临床特征建立重症感染患儿死亡风险预测模型。主要结局指标模型接收者操作特征曲线下面积(AUROC)和模型筛选临床特征性能的优劣。结果2022年4月1日至2023年12月31日协作网数据库中入PICU时确诊重症感染且入PICU时、入PICU 24 h时和出PICU时临床特征记录均完整的(病例1738例,经过数据预处理包括异常值处理、缺失值填充、强制值区间范围检验、归一化处理)1738条信息进入机器学习构建模型。存活或好转患儿1396例,死亡或恶化患儿342例(19.6%)。队列数据按4∶1分为训练集(1390条)和验证集(348条),训练集中存活或好转1116条,死亡或恶化274条;验证集中存活或好转280条,死亡或恶化68条。在训练集中,共输入模型122个临床特征,经过机器模型学习以及特征筛选后,在50轮的5折分层交叉验证下,验证集LR、RF和XGB的AUROC为0.74~0.78。LR、RF和XGB选择重要性大于均值的临床特征构建最优临床特征,尚无比较好的衡量BP特征重要性的方法,LR模型较RF和XGB构建的最优临床特征较为接近临床预期。结论机器学习预测儿童重症感染性疾病死亡/恶化结局表现一般,预测模型筛选的临床特征与临床预期尚有距离。 展开更多
关键词 机器学习 儿童重症监护室 感染 随机森林模型 极端梯度提升树
下载PDF
Multi-Level, Multi-Scale Modeling and Predictive Mapping for Jaguars in the Brazilian Pantanal
5
作者 Eve Bohnett Dave Hulse +1 位作者 Bilal Ahmad Thomas Hoctor 《Open Journal of Ecology》 2020年第5期243-263,共21页
Multi-level multi-scale resource selection models using machine learning were compared and contrasted for generating predictive maps of jaguar habitat (Panthera onca) in the Brazilian Pantanal. Multiple spatial scales... Multi-level multi-scale resource selection models using machine learning were compared and contrasted for generating predictive maps of jaguar habitat (Panthera onca) in the Brazilian Pantanal. Multiple spatial scales and temporal movement levels were run within several analytical modeling frameworks for comparison. Included in the analysis were multi-scale raster grains (30 m, 90 m, 180 m, 360 m, 720 m, 1440 m) and GPS collaring temporal movement levels (point, path, and step). Various analytical methods were used for comparison of models that could accommodate data structural levels (group, individual, case-control). Models compared included conditional logistic regression, generalized additive modeling (GAM), and classification regression trees, such as random forests (RF) and gradient boosted regression tree (GBM). The goals of the study were to discuss the potential and limitations for machine learning methods using GPS collaring data to produce predictive habitat suitability mapping using the various scales and levels available. Results indicated that choosing the appropriate temporal level and raster scale improved model outputs. Overall, larger level analytical modeling frameworks and those that used multi-scale raster grains showed the best model evaluation with the inherent condition that they predict a broader scale and subset of data. The identification of the appropriate spatial scale, temporal scale and statistical model need careful consideration in predictive mapping efforts. 展开更多
关键词 Machine Learning Movement Ecology HABITAT SELECTION Resource SELECTION MULTIPLE Levels MULTIPLE Scales PREDICTIVE models gradient Boosting Method Random forest
下载PDF
气候变化和人类活动对中国北方旱区植被变绿的定量贡献 被引量:2
6
作者 许丽 高光耀 +4 位作者 王晓峰 陈永喆 周潮伟 王凯 傅伯杰 《生态学报》 CAS CSCD 北大核心 2023年第17期7274-7283,共10页
气候变化和大规模的生态恢复使中国北方旱区植被发生了显著变化,量化气候变化和人类活动对植被动态的相对贡献,对于旱区生态系统管理和应对未来气候变化具有重要意义。目前,中国北方旱区植被变化影响因素的时间动态(2000年大规模生态恢... 气候变化和大规模的生态恢复使中国北方旱区植被发生了显著变化,量化气候变化和人类活动对植被动态的相对贡献,对于旱区生态系统管理和应对未来气候变化具有重要意义。目前,中国北方旱区植被变化影响因素的时间动态(2000年大规模生态恢复工程实施前后)和空间异质性(沿干旱梯度)仍需进一步的定量研究。基于多源数据,采用趋势分析、偏相关分析和随机森林模型等方法,分析了1981-2018年中国北方旱区气候和植被的时空变化规律,量化了2000年前后气候变化和人类活动对植被动态的相对贡献并分析其在干旱梯度上的空间差异性。结果表明:(1)1981-2018年期间,中国北方旱区的叶面积指数(LAI)平均增加速率为(0.0037±0.0443)a^(-1),且增加速率沿干旱梯度增大。2000年前仅10.46%(P<0.05)的地区显著变绿,而2000年后达到36.84%,且植被变绿主要归因于非树木植被。(2)2000年后降水对植被变绿的正效应在不同干旱梯度均增加,而在半干旱区和亚湿润干旱区,温度对植被变绿由正向促进转为负向抑制,而辐射在干旱区由负效应转向正效应。(3)2000年前后,气候变化均主导着植被的动态,贡献率分别为96.07%和73.72%,人类活动的贡献在2000年后进一步增强(从3.93%增加到26.28%),且沿着干旱梯度而增加,其中人类活动对植被变绿的贡献在半干旱地区增加最显著(+0.0289 m^(2)m^(-2)a^(-1),P<0.05)。研究结果可为未来气候变化下中国北方旱区的植被恢复和可持续发展提供科学依据。 展开更多
关键词 植被变绿 气候变化 人类活动 随机森林模型 干旱梯度
下载PDF
基于耳石微结构的渤海带鱼早期生长与环境的关系分析
7
作者 时政通 陈琪 +4 位作者 李建超 刘阳 孙润隆 席晓宇 孙鹏 《中国海洋大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第6期65-73,共9页
在长期气候变化和捕捞压力下渤海带鱼(Trichiurus japonicus)仍保持较高产量,为探究这一现象是否与渤海带鱼早期生长有关,本研究通过对渤海带鱼耳石微结构分析,追溯其产卵时间,使用梯度森林模型以及广义加性模型分析渤海带鱼早期生长与... 在长期气候变化和捕捞压力下渤海带鱼(Trichiurus japonicus)仍保持较高产量,为探究这一现象是否与渤海带鱼早期生长有关,本研究通过对渤海带鱼耳石微结构分析,追溯其产卵时间,使用梯度森林模型以及广义加性模型分析渤海带鱼早期生长与环境因子之间的关系。研究表明,渤海带鱼产卵高峰期为5月。海底温度(SBT)、混合层深度(MLD)和海表盐度(SSS)是影响带鱼早期生长的重要环境因子。其中,带鱼早期生长速度随SBT的升高而持续增加,且在10~12℃范围内生长速度最快。同时,随着MLD的增加,带鱼早期生长速度呈减缓趋势。以上结果表明,温度的升高以及充足的饵料供给可以促进带鱼的早期生长和种群的补充。 展开更多
关键词 带鱼 耳石微结构 产卵时间 梯度森林模型 广义加性模型 环境因子
下载PDF
基于Stacking的个人薪资预测研究
8
作者 林心慧 陈超 《现代计算机》 2023年第10期25-29,共5页
薪水是求职者着重考虑的因素,在信息飞速发展的时代,求职者寻找工作时希望通过各种方法去合理地评估自己的薪酬区间,而人们往往难以对自己的薪资水平进行合理预测,因此合理评估能力,进而找到适合自己的薪资标准就显得格外重要。基于这... 薪水是求职者着重考虑的因素,在信息飞速发展的时代,求职者寻找工作时希望通过各种方法去合理地评估自己的薪酬区间,而人们往往难以对自己的薪资水平进行合理预测,因此合理评估能力,进而找到适合自己的薪资标准就显得格外重要。基于这个现实问题,通过对原始数据进行分析处理并结合Stacking算法,即融合随机森林、梯度提升树、XGBoost、逻辑回归等模型,对求职者的薪水进行一个合理的预测,并且通过实验显示,使用Stacking融合算法的模型具有更好的预测性能和泛化能力。 展开更多
关键词 Stacking融合模型 个人薪水 随机森林 梯度提升树 XGBoost
下载PDF
4种遥感水深反演机器学习模型的比较 被引量:4
9
作者 沈蔚 孟然 +3 位作者 栾奎峰 饶亚丽 郝李华 纪茜 《海洋测绘》 CSCD 北大核心 2022年第5期68-72,共5页
为探究不同遥感水深反演机器学习模型的差异,以WorldView-2高分辨率多光谱影像与实测水深数据为数据源,应用BP神经网络模型、随机森林模型、梯度提升决策树模型及支持向量机模型开展水深反演实验,对4种水深反演模型的精度进行比较与评... 为探究不同遥感水深反演机器学习模型的差异,以WorldView-2高分辨率多光谱影像与实测水深数据为数据源,应用BP神经网络模型、随机森林模型、梯度提升决策树模型及支持向量机模型开展水深反演实验,对4种水深反演模型的精度进行比较与评价。实验结果表明:机器学习模型反演水深,具有一定精度,平均相对误差(MRE)可优于20%。4种模型中,同为集成学习模型的随机森林模型与梯度提升决策树模型在两个实验区域,反演水深的RMSE值、MRE值与R2值明显优于BP神经网络模型和支持向量机模型,具有更好的浅水水深反演效果和适用性。 展开更多
关键词 多光谱水深反演 随机森林模型 梯度提升决策树模型 BP神经网络模型 支持向量机模型
下载PDF
基于GFM和GAMM模型分析对虾白斑综合征(WSSV)对黄海和东海北部水域虾类生物量的影响 被引量:1
10
作者 徐婷婷 滕广亮 +4 位作者 李英瑕 吴强 单秀娟 张庆利 金显仕 《渔业科学进展》 CSCD 北大核心 2022年第1期46-55,共10页
虾类是海洋生态系统功能群的重要组成部分,其生物量变化受到多重因素的影响。本研究在开展黄海和东海北部水域虾类白斑综合征病毒(white spot syndrome virus,WSSV)流行病学调查的基础上,利用梯度随机森林模型(gradient random forest m... 虾类是海洋生态系统功能群的重要组成部分,其生物量变化受到多重因素的影响。本研究在开展黄海和东海北部水域虾类白斑综合征病毒(white spot syndrome virus,WSSV)流行病学调查的基础上,利用梯度随机森林模型(gradient random forest model,GFM)和广义加性混合模型(generalized additive mixed models,GAMM),分析了2016—2018年间黄海和东海北部水域WSSV流行对虾类生物量的影响。分子检测结果显示,调查所获取的26种虾类中,11种被检测为WSSV阳性;2016、2017和2018年WSSV阳性采样站点的比率分别为48.40%、38.75%和21.74%,虾类样品中WSSV阳性检出比率分别为16.86%、9.60%和4.80%。GFM模型分析显示,解释变量“阳性样品数的对数(ln_posi)”对响应变量“虾类生物量的对数(ln_Abu)”的重要性最高。GAMM分析中,根据赤池信息准则(Akaike information criterion,AIC)最小原则筛选出的最优模型为:ln_Abu~WSSV阳性率(P_rate)+ln_posi+经度(Long),该模型中ln_posi和P_rate是影响虾类生物量的极显著相关因子,ln_Abu随着P_rate的升高而降低。研究表明,WSSV在黄海和东海北部水域虾类中流行,推测对该海域的虾类生物量存在影响。 展开更多
关键词 对虾白斑综合征病毒 黄海和东海北部 虾类 GFM模型 GAMM模型
下载PDF
基于RFE-RF-XGBoost的坝体位移预测研究 被引量:5
11
作者 王昕宇 杨鹏 戴健非 《东北师大学报(自然科学版)》 CAS 北大核心 2021年第2期60-66,共7页
为了加强尾矿库的安全稳定管理,提高溃坝预测预警水平,以坝体位移为研究对象,安全监测数据为研究基础,提出一种基于特征递归消除与随机森林和极限梯度提升的尾矿坝坝体位移预测模型,并与XGBoost、LSTM神经网络、BP神经网络、SVR等预测... 为了加强尾矿库的安全稳定管理,提高溃坝预测预警水平,以坝体位移为研究对象,安全监测数据为研究基础,提出一种基于特征递归消除与随机森林和极限梯度提升的尾矿坝坝体位移预测模型,并与XGBoost、LSTM神经网络、BP神经网络、SVR等预测模型对比,以验证其预测效果.结果表明:所提出模型平均相对误差低于XGBoost模型3.93%,并考虑了外部因素对坝体形变的影响.该结果对于矿山施工决策、安全管理、环境保护,减少溃坝事故具有一定的参考意义. 展开更多
关键词 尾矿库 坝体位移 随机森林 极限梯度提升 预测模型
下载PDF
武夷山不同海拔梯度毛竹林土壤有机碳特征及影响因素 被引量:18
12
作者 张厚喜 林丛 +4 位作者 程浩 金昌善 徐自坤 魏志超 马祥庆 《土壤》 CAS CSCD 北大核心 2019年第4期821-828,共8页
以武夷山自然保护区的毛竹林土壤(海拔范围为250~1 500 m)为研究对象,选取5个海拔梯度的15块样地,分析了毛竹林土壤有机碳沿海拔梯度的分布特征,探讨了土壤有机碳含量与地形因子、土壤性质的相关关系,并构建了土壤有机碳的回归模型。结... 以武夷山自然保护区的毛竹林土壤(海拔范围为250~1 500 m)为研究对象,选取5个海拔梯度的15块样地,分析了毛竹林土壤有机碳沿海拔梯度的分布特征,探讨了土壤有机碳含量与地形因子、土壤性质的相关关系,并构建了土壤有机碳的回归模型。结果表明:①武夷山毛竹林土壤有机碳含量变化范围为13.29~70.68 g/kg,且海拔>500m土壤有机碳的分布具有明显的表聚现象;②同一海拔高度内,毛竹林土壤有机碳含量呈现随土层深度的增加而逐渐降低的趋势,且其降幅也随之变小;③同一土层深度的土壤有机碳含量大体呈现随海拔的升高而增加的趋势,而其增幅则随之变小;④不同土层土壤有机碳含量与海拔均呈显著或极显著正相关、与容重均呈极显著负相关,而仅表层(0~10 cm)土壤有机碳含量与坡度呈显著负相关;⑤土壤有机碳多元线性回归模型的拟合优度高于一元线性回归模型,不同因子组合对不同土层有机碳含量变异的解释量介于59%~83%。 展开更多
关键词 武夷山自然保护区 毛竹林 土壤有机碳 海拔梯度 多元线性回归模型
下载PDF
基于病害高发期气象因子的三七病害发生率预测 被引量:3
13
作者 熊凯 杨启良 +3 位作者 杨春曦 刘小刚 韩焕豪 周平 《农业工程学报》 EI CAS CSCD 北大核心 2020年第24期170-176,共7页
准确预报病害发生率是提前应对三七病害、提高产量和品质的重要基础。该研究利用2018-2019年云南红河州三七种植基地内田间气象数据和病害发生率资料,采用主效应分析(Principal Components Analysis, PCA)来避免多元共线性的发生。以201... 准确预报病害发生率是提前应对三七病害、提高产量和品质的重要基础。该研究利用2018-2019年云南红河州三七种植基地内田间气象数据和病害发生率资料,采用主效应分析(Principal Components Analysis, PCA)来避免多元共线性的发生。以2018年和2019年的5-9月气象数据集作为训练集与验证集,以随机森林(Random Forest, RF)算法作为基础学习机构建初步预测模型,最后通过梯度下降(GradientDescent,GD)算法进行优化。结果表明,土壤温度与棚内湿度均与病害发生率呈正相关,其皮尔逊相关系数在0.25~0.75之间,棚内土壤热通量和三七冠层上方土壤热通量均与病害发生率呈负相关,其皮尔逊相关系数在-0.75^-0.25之间;通过随机森林获得的模型的均方根误差为0.23;通过梯度下降优化,代价函数收敛时值为241.003,并获得各个气象因子对三七病害高发期的病害发生率影响的权重,其中土壤温度正相关程度最大,权重为21.686,三七冠层上方的土壤热通量负相关程度最大,权重为-13.834。该研究结果在通过田间气象因子预测三七病害高发期的病害发生率上具备可靠的预测能力,可为降低三七病害的设施环境调控和智能化管理提供理论依据和技术支持。 展开更多
关键词 病害 模型 中药材 随机森林 梯度下降 三七 气象因子
下载PDF
集成土壤-环境关系与机器学习的干旱区土壤属性数字制图 被引量:13
14
作者 张振华 丁建丽 +4 位作者 王敬哲 葛翔宇 王瑾杰 田美玲 赵启东 《中国农业科学》 CAS CSCD 北大核心 2020年第3期563-573,共11页
【目的】土壤属性的空间分布是影响农业生产力、土地管理和生态安全的重要因素。通过土壤环境耦合关系,在机器学习算法框架下,定量预测出干旱区土壤酸碱度(pH)、土壤盐分含量(Soil Salt Content,SSC)与土壤有机质(Soil Organic Matter, ... 【目的】土壤属性的空间分布是影响农业生产力、土地管理和生态安全的重要因素。通过土壤环境耦合关系,在机器学习算法框架下,定量预测出干旱区土壤酸碱度(pH)、土壤盐分含量(Soil Salt Content,SSC)与土壤有机质(Soil Organic Matter, SOM)3种土壤属性的空间分布,为干旱区农业生产和生态安全提供科学依据。【方法】在渭干河-库车河绿洲干旱区于2017年7月设计采集典型表层(0-20 cm)土壤样品82个,依据土壤-环境之间的关系,集成DEM数据和Landsat 8数据提取出32种环境协变量,利用栅格重采样将提取出的32种变量重采样为90 m空间分辨率并转换为Grid格式参与建模。借助梯度提升决策树(Gradient Boosting Decision Tree,GBDT)模型依次对3类土壤属性的32种环境协变量进行重要性排序,并通过均方根误差(Root Mean SquareError,RMSE)界定出协变量重要性阈值点,从而筛选出参与3类土壤属性制图的环境协变量。进而运用随机森林(Random Forest, RF)、Bagging和Cubist 3种非线性模型建模,并引入多元线性回归模型(Multiple Linear Regression,MLR)进行对比分析,选出最优模型并绘制出90 m分辨率新疆渭干河-库车河绿洲干旱区pH、SSC与SOM 3种土壤属性图。【结果】梯度提升决策树能有效筛选出重要协变量,高程(Elevation)、剖面曲率(Profile Curvature)、差值植被指数(Difference Vegetation Index)、扩展增强型植被指数(Extended Normalized Difference Vegetation Index)、调整土壤亮度植被指数(Modified Soil Adjusted Vegetation Index)、盐分指数S1(Salinity Index S1)以及盐分指数S6 (Salinity Index S6) 7类环境变量均参与3类土壤属性建模,其中SSC遴选出参与建模协变量15种,pH和SOM则均为17种,且遥感指标在预测土壤属性图中起到强大的作用。机器学习3种算法的结果均优于MLR。通过3种非线性模型对比发现,随机森林在3种土壤属性中均表现最佳。在随机森林预测的3种土壤属性中,土壤pH验证集效果R^2=0.6779,RMSE=0.2182,ρc=0.6084;在SSC预测中,验证集R^2=0.7945,RMSE=3.1803,ρc=0.8377;在SOM预测中,验证集R^2=0.7472,RMSE=3.5456,ρc=0.7009。【结论】GBDT所筛选出的重要性因子借助机器学习算法可以用于干旱区土壤属性制图,且随机森林模型均对3类土壤属性表现出最佳预测能力。依据所绘制的土壤属性图并结合土壤分类图厘清了3种制图属性的空间分布。 展开更多
关键词 土壤属性 环境协变量 数字土壤制图 机器学习 梯度提升决策树模型 随机森林模型 Bagging模型 Cubist模型
下载PDF
基于集成学习算法的PM_(2.5)浓度值预测 被引量:3
15
作者 孔宇 王海起 +1 位作者 张浩然 夏可 《环境保护科学》 CAS 2021年第4期17-23,共7页
文章分析了PM_(2.5)浓度与其他污染颗粒物及气象因素的相关性,构建出模型的输入特征,基于集成学习算法,选择随机森林(RF)和梯度提升树(GBDT)算法,分别建立PM_(2.5)未来7日浓度预测模型。随机选取2个监测站点的数据用于研究和评估模型。... 文章分析了PM_(2.5)浓度与其他污染颗粒物及气象因素的相关性,构建出模型的输入特征,基于集成学习算法,选择随机森林(RF)和梯度提升树(GBDT)算法,分别建立PM_(2.5)未来7日浓度预测模型。随机选取2个监测站点的数据用于研究和评估模型。结果表明,与单一回归模型相比,集成学习算法能够较好地捕捉PM_(2.5)浓度与各输入变量间的非线性关系,RF和GBDT模型能够在未来多日PM_(2.5)浓度的预测中表现较好,预测结果较符合PM_(2.5)真实趋势。 展开更多
关键词 PM_(2.5)浓度 预测模型 集成学习 随机森林 梯度提升树
下载PDF
基于GBDT的轨道不平顺状态评价模型研究 被引量:6
16
作者 张煜 杨飞 +2 位作者 尤明熙 李国龙 龙亦语 《铁道建筑》 北大核心 2020年第8期111-114,共4页
基于轨道几何动态检测数据和车载式线路检查仪(晃车仪)数据,通过随机森林模型分析轨道几何特征与水平、垂直晃车相关性,并结合车辆动态响应利用迭代决策树(Gradient Boosting Decision Tree,GBDT)算法建立轨道不平顺状态评价模型,利用... 基于轨道几何动态检测数据和车载式线路检查仪(晃车仪)数据,通过随机森林模型分析轨道几何特征与水平、垂直晃车相关性,并结合车辆动态响应利用迭代决策树(Gradient Boosting Decision Tree,GBDT)算法建立轨道不平顺状态评价模型,利用该模型对一客运专线实测轨道几何数据和晃车仪数据进行数据训练和预测。结果表明,模型能够识别超出现有幅值评判标准对车辆运行有显著影响的轨道病害区段,有益于完善轨道几何不平顺评价体系及工务设备养护维修。 展开更多
关键词 轨道几何 车辆响应 迭代决策树(GBDT) 预测模型 随机森林模型
下载PDF
基于特征选择算法的建筑能耗预测集成模型 被引量:3
17
作者 白雪 刘刚 +3 位作者 黄蕾 钟韬 乔丹 杨执钧 《计算机工程与设计》 北大核心 2020年第10期2892-2896,共5页
为提高建筑能耗预测效果,提出一种基于随机森林特征选择算法的建筑能耗预测集成回归模型(RF-GBDT)。通过随机森林的特征选择算法处理原始数据集生成最优特征子集,使用梯度提升决策树算法将6种基础的机器学习算法建立集成回归模型,以最... 为提高建筑能耗预测效果,提出一种基于随机森林特征选择算法的建筑能耗预测集成回归模型(RF-GBDT)。通过随机森林的特征选择算法处理原始数据集生成最优特征子集,使用梯度提升决策树算法将6种基础的机器学习算法建立集成回归模型,以最优特征子集作为集成模型的输入数据集。使用评价指标RMSE和R^2将集成模型预测结果与传统集成模型以及单一机器学习算法的预测结果进行对比,实验结果验证了集成后的RF-GBDT模型比单一算法的预测性能有了大幅度提升。 展开更多
关键词 随机森林 梯度提升树 特征选择 集成回归模型 能耗预测
下载PDF
基于多特征集成决策树算法的门诊需求预测 被引量:2
18
作者 彭俊 张肖建 +3 位作者 徐超 谢勇 项薇 何达 《北京生物医学工程》 2021年第1期68-73,共6页
目的为了准确预测医疗门诊需求量,以便医院管理者科学分配关键医疗资源,提高服务效率,本文提出一种基于多特征集成决策树的医疗需求预测模型。方法首先引入了机器学习算法中的梯度提升决策树(gradient boosting decision tree,GBDT)和... 目的为了准确预测医疗门诊需求量,以便医院管理者科学分配关键医疗资源,提高服务效率,本文提出一种基于多特征集成决策树的医疗需求预测模型。方法首先引入了机器学习算法中的梯度提升决策树(gradient boosting decision tree,GBDT)和随机森林(random forest,RF)。考虑外部因素对门诊人数的影响,根据宁波市某妇幼保健院的日产前检查人数的历史数据,引入前一天产前检查人数、时间、节假日、天气等特征,建立多特征日检查人数预测模型。预测结果与经典自回归移动平均模型(autoregressive integrated moving average model,ARIMA)模型进行对比。结果GBDT、RF和ARIMA模型预测结果的平均绝对百分比误差(mean absolute percentage error,MAPE)分别是14.95%、17.16%、18.53%。结论集成决策树模型在医疗需求预测中具有有效性和可行性,并且预测精度较传统的ARIMA模型高。 展开更多
关键词 门诊需求预测 多特征 GBDT 随机森林 ARIMA
下载PDF
Logistic回归法和机器学习算法构建子痫前期预测模型的比较
19
作者 许兴能 陈胜柱 +3 位作者 周嘉怡 杨思 王旭薇 余波澜 《中华围产医学杂志》 CAS CSCD 北大核心 2024年第7期572-581,共10页
目的利用医院电子病历系统首页信息和临床检验数据通过logistic回归(logistic regression,LR)法和机器学习算法构建子痫前期(preeclampsia,PE)预测模型,同时比较机器学习算法和LR构建模型的预测性能。方法基于2012年1月1日至2019年12月3... 目的利用医院电子病历系统首页信息和临床检验数据通过logistic回归(logistic regression,LR)法和机器学习算法构建子痫前期(preeclampsia,PE)预测模型,同时比较机器学习算法和LR构建模型的预测性能。方法基于2012年1月1日至2019年12月31日在广州医科大学附属第三医院就诊孕产妇的围产期数据和柔济妊娠检验数据库信息,根据临床诊疗指南和相关文献报道关联整合后选取数据量较为完整的孕24~28周共2736例孕妇的28项临床相关指标作为PE预测模型构建数据。将其中PE患者作为PE组(n=245),其余非PE患者中采用欠采样法选择255例为对照组。使用随机森林算法(random forest,RF)及极端梯度上升算法(eXtreme Gradient Boosting,XGB)和LR模型分别构建PE疾病预测模型。模型构建完成后,在2019年6月至2022年12月开展的PE前瞻性队列研究获得数据中(PE组38例,对照组80例),进行PE预测准确性的外部验证。采用准确度、灵敏度、特异度、受试者工作特征曲线下面积比较不同模型的预测效能。结果3种预测模型构建时纳入的指标提示,尿酸、肌酐、年龄、孕早期体重指数、尿素、甘油三酯、红细胞计数、嗜酸性粒细胞计数、总胆固醇、中性粒细胞计数、尿蛋白、丙氨酸氨基转移酶以及尿潜血是影响PE预测模型的指标。RF、XGB和LR模型在训练集和测试集中的受试者工作特征曲线下面积分别为0.851(95%CI:0.730~0.891)、0.955(95%CI:0.865~0.987)、0.884(95%CI:0.767~0.923)和0.845(95%CI:0.723~0.868)、0.907(95%CI:0.791~0.919)、0.851(95%CI:0.755~0.893)。在测试集中,RF、XGB和LR模型的准确度、灵敏度与特异度分别为0.803、0.607、0.958,0.864、0.790、0.927和0.832、0.661、0.971。在外部验证集中RF、XGB和LR预测模型的准确度分别为0.822、0.814和0.763;灵敏度分别为0.737、0.789和0.605;特异度分别为0.863、0.825和0.838,其中XGB模型的约登指数最高,为0.614。结论相对于传统的建模方法,利用机器学习算法可以在真实临床检测数据中建立更加有效的PE预测模型。 展开更多
关键词 子痫前期 预测模型 LOGISTIC回归模型 随机森林算法 极端梯度上升算法
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部