期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于Stacking模型融合策略的日本俯冲带板缘地震动预测
1
作者 党浩天 王自法 +4 位作者 赵登科 位栋梁 王祥琪 WANG Jianming 李兆焱 《世界地震工程》 北大核心 2024年第1期80-95,共16页
高精度的地震动预测模型有助于提高地震灾害的预警和应对能力。传统回归方法构建地震动预测模型时提前设定了方程的形式,此种方法存在一定局限性,难以反映地震动传播过程中的复杂规律,因此越来越多的学者尝试应用机器学习方法构建地震... 高精度的地震动预测模型有助于提高地震灾害的预警和应对能力。传统回归方法构建地震动预测模型时提前设定了方程的形式,此种方法存在一定局限性,难以反映地震动传播过程中的复杂规律,因此越来越多的学者尝试应用机器学习方法构建地震动预测模型。但采用单一的机器学习算法,难以从数据中捕捉到更多规律,最终导致模型精度难以提升。本文基于日本KiK-net和K-Net强震台网收集到的俯冲带板缘地震动记录,使用Stacking模型融合策略,以LightGBM、XGBoost和CatBoost算法作为基学习器,线性回归算法作为元学习器,引入客观且高效的贝叶斯优化算法对模型进行超参数优化,最终训练并提出了一种适用于日本俯冲带板缘地震动预测的融合模型Stacking-Interface。对比分析所提出模型、单一机器学习模型和传统模型,发现机器学习模型的精度普遍高于传统模型,且相较于单一的机器学习模型,融合模型的预测能力有一定的提升;通过与实际地震动记录的对比和特征参数敏感性分析,验证了所提模型的可靠性和泛化能力。研究方法和结果能够为地震风险分析提供参考。 展开更多
关键词 地震动预测 STACKING 俯冲带板缘地震 部分依赖图
下载PDF
基于可解释机器学习的大型活动场馆周边路网运行状态影响研究
2
作者 吴明珠 冯楷 +3 位作者 翁剑成 魏瑞聪 王晶晶 钱慧敏 《南京信息工程大学学报》 CAS 北大核心 2024年第2期221-230,共10页
举办大型活动会导致周边受影响区域在短时间内集中大量人群和车辆,场馆周边路网与常态交通具有差异化特征.为探究大型活动对场馆周边路网运行状态的影响机理,解析活动规模、路段与活动场馆的空间距离等因素的影响特征,构建融合XGBoost... 举办大型活动会导致周边受影响区域在短时间内集中大量人群和车辆,场馆周边路网与常态交通具有差异化特征.为探究大型活动对场馆周边路网运行状态的影响机理,解析活动规模、路段与活动场馆的空间距离等因素的影响特征,构建融合XGBoost算法与部分依赖图的可解释机器学习模型,以捕捉不同因素的非线性效应与协同影响.以北京市为例开展了实证研究,单因素的异质性影响表明:路段与活动场馆的空间距离及活动规模对场馆周边路网运行状态的影响较大,其相对重要度分别达到27.1%和25.4%,距离活动开始/结束的时间对场馆周边路网运行状态存在明显非线性特征,在活动开始前30~60 min,以及活动结束后30 min内,场馆周边3 km以内的路段将受到显著影响.二维因素的协同影响表明:当活动规模大于3万人时,节假日和不利天气对场馆周边路网运行状态呈负面影响,而在降雨和雾霾天气下,场馆周边路网运行状态受时空影响较大,影响范围为活动开始前60 min与结束后40 min内距离活动场馆2.5 km内的路段.相关研究结论可为大型活动期间道路拥堵致因辨别及制定科学有效的路网管控策略提供定量化的决策依据. 展开更多
关键词 城市交通 短时大型活动 路网运行状态 影响关系 XGBoost模型 部分依赖图
下载PDF
Predicting Rock Burst in Underground Engineering Leveraging a Novel Metaheuristic-Based LightGBM Model
3
作者 Kai Wang Biao He +1 位作者 Pijush Samui Jian Zhou 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第7期229-253,共25页
Rock bursts represent a formidable challenge in underground engineering,posing substantial risks to both infrastructure and human safety.These sudden and violent failures of rock masses are characterized by the rapid ... Rock bursts represent a formidable challenge in underground engineering,posing substantial risks to both infrastructure and human safety.These sudden and violent failures of rock masses are characterized by the rapid release of accumulated stress within the rock,leading to severe seismic events and structural damage.Therefore,the development of reliable prediction models for rock bursts is paramount to mitigating these hazards.This study aims to propose a tree-based model—a Light Gradient Boosting Machine(LightGBM)—to predict the intensity of rock bursts in underground engineering.322 actual rock burst cases are collected to constitute an exhaustive rock burst dataset,which serves to train the LightGBMmodel.Two population-basedmetaheuristic algorithms are used to optimize the hyperparameters of the LightGBM model.Finally,the sensitivity analysis is used to identify the predominant factors that may incur the occurrence of rock bursts.The results show that the population-based metaheuristic algorithms have a good ability to search out the optimal hyperparameters of the LightGBM model.The developed LightGBM model yields promising performance in predicting the intensity of rock bursts,with which accuracy on training and testing sets are 0.972 and 0.944,respectively.The sensitivity analysis discloses that the risk of occurring rock burst is significantly sensitive to three factors:uniaxial compressive strength(σc),stress concentration factor(SCF),and elastic strain energy index(Wet).Moreover,this study clarifies the particular impact of these three factors on the intensity of rock bursts through the partial dependence plot. 展开更多
关键词 Rock burst prediction LightGBM coati optimization algorithm pelican optimization algorithm partial dependence plot
下载PDF
基于机器学习构建非酒精性脂肪性肝病预测模型 被引量:1
4
作者 刘璐 朱锦舟 +4 位作者 刘晓琳 王超 殷民月 高静雯 许春芳 《肝脏》 2023年第4期469-473,共5页
目的利用H2O平台自动化机器学习(AutoML)框架,建立非酒精性脂肪性肝病的预测模型。方法收集苏州大学附属第一医院体检中心人员资料。利用临床结构化数据,基于H2O AutoML框架,建立预测非酒精性脂肪性肝病发病的多种机器学习算法模型,绘制... 目的利用H2O平台自动化机器学习(AutoML)框架,建立非酒精性脂肪性肝病的预测模型。方法收集苏州大学附属第一医院体检中心人员资料。利用临床结构化数据,基于H2O AutoML框架,建立预测非酒精性脂肪性肝病发病的多种机器学习算法模型,绘制ROC曲线并建立混淆矩阵来评价模型效力,同时对重要变量进行可视化呈现。结果自动化建立28个机器学习模型。最佳模型为梯度提升机(GBM),Gini值为0.80,R2为0.42,LogLoss为0.45。模型中重要性绝对值排名前五的变量为:三酰甘油(95%CI:-1.053~-0.887)、天冬氨酸转氨酶(95%CI:-20.433~-16.927)、高密度脂蛋白(95%CI:0.232~0.268)、铁蛋白(95%CI:-80.533~-68.607)及血糖(95%CI:-0.576~-0.424)。最佳模型GBM在验证集中特异度为0.818,敏感度为0.715,AUC为0.766,优于基于XGBoost、逻辑回归、随机森林和深度学习等算法类型。结论非酒精性脂肪性肝病的机器学习模型为筛查非酒精性脂肪性肝病患者提供了新的诊疗思路。 展开更多
关键词 非酒精性脂肪性肝病 自动化机器学习 预测模型
下载PDF
基于随机森林-特征递归消除模型的可解释性缓丘岭谷地貌滑坡易发性评价 被引量:4
5
作者 孙德亮 陈丹璐 +3 位作者 密长林 陈星宇 密士文 李晓琴 《地质力学学报》 CSCD 北大核心 2023年第2期202-219,共18页
研究旨在基于随机森林-特征递归消除模型,通过SHAP算法(SHapley Additive exPlanation,SHAP)与部分依赖图(Partial Dependence Plot,PDP)对缓丘岭谷地貌区域进行滑坡易发性评价与内部机制解释,以期为地质灾害防治研究提供参考。利用优... 研究旨在基于随机森林-特征递归消除模型,通过SHAP算法(SHapley Additive exPlanation,SHAP)与部分依赖图(Partial Dependence Plot,PDP)对缓丘岭谷地貌区域进行滑坡易发性评价与内部机制解释,以期为地质灾害防治研究提供参考。利用优化随机森林算法对典型缓丘岭谷地区滑坡易发性进行研究,建立缓丘岭谷滑坡易发性评价模型;利用特征递归消除算法剔除噪声因子,选取地形地貌、地质构造、环境条件、人类活动5个类型16个因子构建重庆合川区滑坡致灾因子数据库;结合合川区754个历史滑坡点,利用随机森林算法对因子重要性进行排序,并根据专家经验法对研究区的滑坡易发性进行划分,将研究区的滑坡易发性分为极低、低、中、高、极高5个等级;应用部分依赖图对合川区滑坡发生影响大的因子进行解释和SHAP算法对个体滑坡进行局部解释。结果表明:与原模型相比,随机森林-特征递归消除模型测试集AUC值提高了0.019,证明了特征递归消除算法的有效性;训练集以及测试集的AUC值分别为0.769、0.755,具有较高的预测精度;缓丘缓坡地区在起伏较大地区滑坡密度较大,历史滑坡多集中于高易发地区;滑坡的空间分布具有不均匀性与复杂性,各致灾因子对滑坡发生的影响有着明显的区域特征与空间异质性,在缓坡丘陵地区多年平均降雨、高程、岩性3个因子对滑坡发生的影响最大;由SHAP算法对合川白塔坪上山公路滑坡事件进行解释,岩性与高程对滑坡起抑制作用,起伏度、坡度、归一化植被指数(NDVI)与POI核密度促进滑坡发生。综上所述,基于随机森林-特征递归消除模型在缓丘岭谷区滑坡易发性评价中具有较高的准确性,通过部分依赖图与SHAP算法对全局滑坡与个体滑坡发生的内在机理进行解释分析,有利于构建与完善不同地貌环境下滑坡易发性评价因子体系并探究滑坡内部决策机理,可为区域滑坡易发性评估与地质灾害防治提供参考。 展开更多
关键词 滑坡易发性区划 随机森林算法 缓丘岭谷区 特征递归消除算法 部分依赖图 SHAP算法
下载PDF
基于综合智能模型的碳钢大气腐蚀重要变量提取和依赖关系挖掘 被引量:2
6
作者 张明 付冬梅 +2 位作者 张达威 马菱薇 邵立珍 《工程科学学报》 EI CSCD 北大核心 2023年第3期407-418,共12页
针对碳钢在大气腐蚀过程中影响变量多且作用机制复杂的问题,提出一种基于综合智能模型的重要变量挖掘框架,利用该框架可以挖掘影响碳钢早期大气腐蚀的重要环境变量及其对腐蚀电偶电流产生的影响.本文通过大气腐蚀监测仪(ACM)收集了我国... 针对碳钢在大气腐蚀过程中影响变量多且作用机制复杂的问题,提出一种基于综合智能模型的重要变量挖掘框架,利用该框架可以挖掘影响碳钢早期大气腐蚀的重要环境变量及其对腐蚀电偶电流产生的影响.本文通过大气腐蚀监测仪(ACM)收集了我国5个试验站点的大气腐蚀数据,首先,构建了随机森林(RF)、梯度提升回归树(GBRT)和BP神经网络(BPNN)三种机器学习模型;其次,利用多模型集成重要变量选择算法(MEIVS)量化环境变量的重要性并提取影响碳钢早期大气腐蚀的重要环境变量;最后,绘制了环境变量与腐蚀电偶电流的局部依赖曲线(PDP).仿真结果显示,MEIVS算法挖掘出的重要环境变量更符合大气腐蚀的先验规律;PDP与MEIVS算法的结论具有很好的一致性,重要环境变量对应的PDP的变化幅度大,且PDP的变化趋势能够反映环境变量对腐蚀电偶电流的影响. 展开更多
关键词 大气腐蚀 碳钢 模型集成 重要变量提取 局部依赖曲线
下载PDF
基于机器学习的粉煤灰活性分类预测
7
作者 胡涛 武梦婷 +2 位作者 胡巍 陈秋松 齐冲冲 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第10期3829-3839,共11页
针对粉煤灰活性快速分类问题,基于随机森林融合数据集分析、参数调整等方法,建立粉煤灰(CFA)活性智能分类模型。利用准确率、召回率、精确率和ROC曲线下面积SAUC这4种评估指标对模型进行评估。此外,使用特征重要性、部分依赖图(PDP)和... 针对粉煤灰活性快速分类问题,基于随机森林融合数据集分析、参数调整等方法,建立粉煤灰(CFA)活性智能分类模型。利用准确率、召回率、精确率和ROC曲线下面积SAUC这4种评估指标对模型进行评估。此外,使用特征重要性、部分依赖图(PDP)和机器学习解释(SHAP)模型3种方法来衡量特征物质的贡献。研究结果表明:模型的准确率为85.45%,召回率为97.56%,精确率为84.29%,SAUC为0.92。K_(2)O、Fe_(2)O_(3)、Na_(2)O和Al_(2)O_(3)对SHAP模型影响较大。随着K_(2)O、Na_(2)O等特征物质占比增加,粉煤灰呈现高活性的概率增加;而随着Al_(2)O_(3)等特征物质占比增加,粉煤灰呈现高活性的概率降低。所建立的模型可快速划分粉煤灰活性并判断其是否具有作为辅助胶凝材料的潜力。 展开更多
关键词 粉煤灰活性 随机森林 特征重要性 部分依赖图 SHAP
下载PDF
基于可解释机器学习框架的高速公路安全风险及影响要素识别
8
作者 杜渐 杨海益 +6 位作者 李洋 郭淼 亓航 魏金强 马浩 胡丹丹 李志宇 《交通信息与安全》 CSCD 北大核心 2023年第5期24-34,共11页
由于交通事故是小概率随机事件,难以在全时空域上开展交通安全分析,也无法基于此制定事故发生前的交通安全风险主动防控策略。为辨识混杂因素干扰下安全风险及其诱发本质,使用激进驾驶行为数据与速度变异系数计算交通秩序指数(traffic o... 由于交通事故是小概率随机事件,难以在全时空域上开展交通安全分析,也无法基于此制定事故发生前的交通安全风险主动防控策略。为辨识混杂因素干扰下安全风险及其诱发本质,使用激进驾驶行为数据与速度变异系数计算交通秩序指数(traffic order index,TOI),形成事故替代指标,并通过K-means聚类算法将TOI划分为3种交通安全风险等级。在此基础上,利用Catboost算法构建交通流特征、天气条件、道路条件等因素与交通安全风险等级间的关联关系,并基于基尼系数的特征重要性确定高速公路交通安全风险要素。使用部分依赖图算法解析风险要素与交通安全风险的依赖关系,获取风险要素对交通安全风险的边际效应。结果表明:(1)Catboost算法对风险等级识别的准确率、精确率、召回率依次为85.95%、88.56%、86.75%,证明交通秩序指数与外部风险要素具有较强相关性;(2)交通流量、拥堵指数对风险识别有较大影响,且与交通安全风险等级呈现非线性关系,交通流量>450 veh/h或拥堵指数>1.5时,交通安全风险均会显著增长,交通安全风险分别上升16.9%、29.5%;(3)当连续1 km道路内设有1~2个交通标志时,交通安全风险最高,路段识别为高风险的概率为38.1%;匝道出入口和隧道内部道路的交通安全风险最高;(4)侧风作用会小幅度影响高速公路交通安全风险,当风力等级由0级增至5级时,交通安全风险上升4.99%。 展开更多
关键词 交通安全 高速公路 风险识别与影响要素挖掘 部分依赖图 机器学习模型
下载PDF
基于集成学习的驾驶人避险安全效果影响因素研究 被引量:2
9
作者 朱彤 王驰恒 +3 位作者 李青 景云超 朱秭硕 李海梅 《安全与环境学报》 CAS CSCD 北大核心 2022年第6期3243-3251,共9页
为准确分析影响避险安全效果的关键因素及其非线性影响关系,设计并实施了驾驶模拟试验。首先,利用模拟器及眼动仪采集各场景下驾驶人行为、眼动特征数据;其次,在相关性分析的基础上,采用随机森林等多种集成机器学习算法分析影响避险安... 为准确分析影响避险安全效果的关键因素及其非线性影响关系,设计并实施了驾驶模拟试验。首先,利用模拟器及眼动仪采集各场景下驾驶人行为、眼动特征数据;其次,在相关性分析的基础上,采用随机森林等多种集成机器学习算法分析影响避险安全效果的因素,并对其重要度进行排序,采用GridSearch算法优化参数;最后,利用部分依赖图(Partial Dependence Plot,PDP)可解释性方法分析影响因素与避险安全效果之间的非线性关系。结果表明:影响特征与避险安全效果之间非线性关系明显;当特征数为6,特征分别为制动反应位置、制动反应时间、车速、刹车深度、纵向加速度、首次注视时间时的LightGBM模型效果最好,此时F1为86.07%。如制动距离较近,则高危险状况可能性明显增加;反应时间影响并不明显,但如反应过慢(超过0.9 s)则会造成风险概率升高;车速明显低于正常速度时避险安全效果不佳,往往是因为驾驶技能不强或处于分心状态;较低的减速度往往造成高危险状况,高减速度对于避免高危险状况有一定作用;制动深度不足往往伴随着高危险状况;首次注视时间过早或过晚都容易造成高危险状况,过早的注视往往是无意的注意,过晚的注意则表明发现时间过晚。 展开更多
关键词 安全人体学 避险行为 危险 集成学习 部分依赖图(pdp)
下载PDF
基于高效数据降维的配电网风灾停电用户数量预测模型 被引量:5
10
作者 侯慧 朱韶华 +3 位作者 俞菊芳 李显强 魏瑞增 黄勇 《电力系统自动化》 EI CSCD 北大核心 2022年第7期69-76,共8页
风灾可能会导致配电网大面积停电,有效的配电网停电用户数量预测可以为应急抢修提供辅助指导。文中提出了一种基于高效数据降维的配电网停电用户数量预测模型。首先,基于数据驱动的方法,考虑所有特征变量即全局变量构建了基于随机森林... 风灾可能会导致配电网大面积停电,有效的配电网停电用户数量预测可以为应急抢修提供辅助指导。文中提出了一种基于高效数据降维的配电网停电用户数量预测模型。首先,基于数据驱动的方法,考虑所有特征变量即全局变量构建了基于随机森林算法的配电网停电用户数量预测模型。然后,利用部分依赖图详细分析了台风期间影响配电网停电用户的多种特征变量与响应变量之间的关系,进行了特征降维,降维后二次建模形成了更高效的配电网停电用户数量预测模型。与考虑全局变量的预测模型相比,特征降维后配电网停电用户数量预测模型在一定程度上减轻了数据收集的工作负担、提高了计算效率,为电网防灾减灾提供了有效依据。 展开更多
关键词 风灾 配电网 停电用户 预测 数据驱动 部分依赖图 随机森林
下载PDF
基于可解释机器学习的银行系统性风险分析
11
作者 肖朋林 夏梦 王直杰 《计算机应用》 CSCD 北大核心 2022年第S02期302-309,共8页
针对银行系统性风险的成因分析,由于银行系统参数多,且参数对系统的影响是耦合的、非线性的,传统机理建模的研究方法和计算机仿真分析方法都难以准确分析参数与系统性风险间的映射关系,而最近兴起的可解释机器学习为这种分析提供了可能... 针对银行系统性风险的成因分析,由于银行系统参数多,且参数对系统的影响是耦合的、非线性的,传统机理建模的研究方法和计算机仿真分析方法都难以准确分析参数与系统性风险间的映射关系,而最近兴起的可解释机器学习为这种分析提供了可能。针对可解释算法在系统性风险分析中的应用进行探索研究,提出了基于决策树可解释性的分析方法,从宏观层面分析银行系统性风险的问题;通过与计算机仿真结果进行对比分析,验证了可解释性算法在系统性风险研究方面的有效性。实验结果表明,与银行间拆借利率、投资波动率、银行间连接度、资本储蓄比、银行资产连接度相比,储蓄波动率、投资平均收益率、用户储蓄利率与储备金率对银行系统性风险的影响程度更大;同时发现以储蓄波动率、平均投资收益、用户储蓄利息和准备金率这4个参数为主导的银行系统中,储蓄波动率越小的银行系统越稳定;但如果此时降低平均收益率并提高用户储蓄利率到一定水平,则会使得该银行系统从稳定状态变成不稳定状态。 展开更多
关键词 可解释性 机器学习 决策树 部分依赖图 系统性风险
下载PDF
Prediction of spatial heterogeneity in nutrient-limited sub-tropical maize yield:Implications for precision management in the eastern Indo-Gangetic Plains
12
作者 Zia Uddin Ahmed Timothy J.Krupnik +7 位作者 Jagadish Timsinab Saiful Islam Khaled Hossain A.S.M.Alanuzzaman Kurishi Shah-Al Emran M.Harun-Ar-Rashid Andrew J.McDonald Mahesh K.Gathala 《Artificial Intelligence in Agriculture》 2024年第3期100-116,共17页
Knowledge of the factors influencing nutrient-limited subtropical maize yield and subsequent prediction is crucial for effective nutrientmanagement,maximizing profitability,ensuring food security,and promoting environ... Knowledge of the factors influencing nutrient-limited subtropical maize yield and subsequent prediction is crucial for effective nutrientmanagement,maximizing profitability,ensuring food security,and promoting environmental sustainability.Weanalyzed data fromnutrient omission plot trials(NOPTs)conducted in 324 farmers'fields across ten agroecological zones(AEZs)in the Eastern Indo-Gangetic Plains(EIGP)of Bangladesh to explain maize yield variability and identify variables controlling nutrient-limited yields.An additive main effect and multiplicative interaction(AMMI)model was used to explain maize yield variability with nutrient addition.Interpretable machine learning(ML)algorithms in automatic machine learning(AutoML)frameworks were subsequently used to predict attainable yield relative nutrient-limited yield(RY)and to rank variables that control RY.The stack-ensemble model was identified as the best-performing model for predicting RYs of N,P,and Zn.In contrast,deep learning outperformed all base learners for predicting RYK.The best model's square errors(RMSEs)were 0.122,0.105,0.123,and 0.104 for RY_(N),RY_(P),RY_(K),and RY_(Zn),respectively.The permutation-based feature importance technique identified soil pH as the most critical variable controlling RY_(N)and RY_(P).The RY_(K)showed lower in the eastern longitudinal direction.Soil N and Zn were associated with RYZn.The predicted median RY of N,P,K,and Zn,representing average soil fertility,was 0.51,0.84,0.87,and 0.97,accounting for 44,54,54,and 48%upland dry season crop area of Bangladesh,respectively.Efforts are needed to update databases cataloging variability in land type inundation classes,soil characteristics,and INS and combine them with farmers'crop management information to develop more precise nutrient guidelines for maize in the EIGP. 展开更多
关键词 Relative yield Additive Main effect and multiplicative interaction (AMMI) Quantile regression autoML Stack-ensemble partial dependency plots
原文传递
基于H2O平台自动化机器学习的糖尿病视网膜病变预测模型的建立
13
作者 王慧霞 张玉婷 朱曼辉 《医学信息》 2023年第22期8-13,共6页
目的利用H2O平台推出的自动化机器学习(AutoML)算法,建立预测糖尿病(DM)视网膜病变(DR)模型。方法纳入2019年1月-2021年1月于本院就诊的606例DM患者,根据眼底照相分为单纯DM组(DM组,303例)及DM合并DR组(DR组,303例)。采集两组患者基本... 目的利用H2O平台推出的自动化机器学习(AutoML)算法,建立预测糖尿病(DM)视网膜病变(DR)模型。方法纳入2019年1月-2021年1月于本院就诊的606例DM患者,根据眼底照相分为单纯DM组(DM组,303例)及DM合并DR组(DR组,303例)。采集两组患者基本情况、血生化检测结果及视网膜图像等数据。利用H2O AutoML算法建立针对DR二分类结局,进行变量筛选并建立机器学习预测模型,产生相应预测结果,据此绘制ROC曲线并建立混淆矩阵,绘制SHAP及部分依赖图,评价模型区分能力。结果DR组糖尿病病程长于DM组,吸烟、饮酒、高血压、脂肪肝比例、腰臀比、BMI及收缩压高于DM组,差异有统计学意义(P<0.05);DR组HDL-C低于DM组,FPG、FINS、HOMA-IR、HbA1c、ALT和AST均高于DM组,差异有统计学意义(P<0.05)。将两组特征数据载入AutoML工作环境中,得到最佳模型为通用梯度回归模型(GBM),该模型Gini值0.914,R2为0.679,LogLoss为0.260。重要性排名前3的变量包括FPG、糖尿病病程及FINS。在Train数据集中,ROC曲线下面积为0.942(95%CI:0.921~0.963)。利用混淆矩阵得到特异度为0.924,敏感度为0.959,准确度为0.942,误分类率为0.058。在Valid数据集中,ROC曲线下面积为0.831(95%CI:0.764~0.897)。利用混淆矩阵得到特异度为0.828,敏感度为0.833,准确度为0.831,误分类率为0.169。结论本次利用AutoML算法建立的通用梯度回归DR患病预测模型可用于DM人群中DR的筛查。 展开更多
关键词 糖尿病视网膜病变 自动化机器学习 预测模型 混淆矩阵 SHAP可视化 部分依赖图
下载PDF
系统性风险与企业财务危机预警——基于前沿机器学习的新视角 被引量:16
14
作者 杨子晖 张平淼 林师涵 《金融研究》 CSSCI 北大核心 2022年第8期152-170,共19页
本文采用Logit回归模型以及随机森林模型、梯度提升模型等前沿机器学习方法,深入考察系统性风险指标对我国企业财务危机的预测能力。结果表明,系统性风险对中下游企业的财务危机具有显著的预测能力,而基于因子分析构建的系统性风险指标... 本文采用Logit回归模型以及随机森林模型、梯度提升模型等前沿机器学习方法,深入考察系统性风险指标对我国企业财务危机的预测能力。结果表明,系统性风险对中下游企业的财务危机具有显著的预测能力,而基于因子分析构建的系统性风险指标,结合随机森林模型可取得更好的预测效果。本文进一步区分财务危机的不同成因并发现,基于随机森林模型和Logit回归模型的预测框架能够对我国大多数财务危机事件进行有效预警。在此基础上,本文对我国上市企业监管提出相关建议,从而为完善金融风险处置机制提供一定参考。 展开更多
关键词 财务危机 系统性风险 机器学习 部分依赖图 风险防范
原文传递
基于移动监测数据的不同城市场景下PM_(2.5)浓度精细模拟与时空特征解析 被引量:2
15
作者 谢晓苇 李代超 +2 位作者 卢嘉奇 吴升 许芳年 《地球信息科学学报》 CSCD 北大核心 2022年第8期1459-1474,共16页
城市内部PM_(2.5)浓度分布具有明显的空间异质性,而传统方法基于遥感数据或监测站点数据进行分析,难以揭示高时空分辨率下城市内部的PM_(2.5)浓度分布特征,缺少不同时刻城市场景(如:道路、工业区、住宅区等)对PM_(2.5)浓度复杂非线性影... 城市内部PM_(2.5)浓度分布具有明显的空间异质性,而传统方法基于遥感数据或监测站点数据进行分析,难以揭示高时空分辨率下城市内部的PM_(2.5)浓度分布特征,缺少不同时刻城市场景(如:道路、工业区、住宅区等)对PM_(2.5)浓度复杂非线性影响的解析。本研究将移动监测传感器安装于快递车上,采集福州市主城区南部不同类型场景的PM_(2.5)浓度,然后融合地理加权回归(Geographical Weighted Regression,GWR)和梯度提升决策树(Gradient Boosting Decision Tree,GBDT)方法,提出一种基于GWR-GBDT的PM_(2.5)模拟与场景解析模型,能够较好地拟合气象、场景因素与PM_(2.5)浓度的非线性关系,提升了城市PM_(2.5)污染精细监测能力;并结合部分依赖图解析不同时段不同场景因素对PM_(2.5)浓度的非线性作用影响。结果表明:①基于移动PM_(2.5)浓度监测数据,利用GWR-GBDT模型能够较好地模拟城市场景、气象和PM_(2.5)浓度之间的非线性关系,能够有效精细模拟PM_(2.5)浓度的空间分布,十折验证R2结果为0.52~0.94;②通过部分依赖图分析同一场景在不同时段对PM_(2.5)浓度响应的异质性,发现各类场景对PM_(2.5)浓度提升或抑制作用并不稳定;③解析不同时段人类活动与城市场景对PM_(2.5)浓度的交互作用发现,教育医疗单位和住宅区两类场景对PM_(2.5)浓度的提升作用都与人类通勤有密切关系,高污染场景中的建筑工地在采取的洒水降尘措施后能在数小时内有效缓解PM_(2.5)污染,公园文体服务区在多数时段对PM_(2.5)浓度具有抑制作用,工业区和道路多数时段会致使对PM_(2.5)浓度提升;④从PM_(2.5)浓度的空间分布来看,福州市主城区南部PM_(2.5)浓度总体呈现东南高-西北低的分布趋势,建筑工地、道路和工业区场景轻度以上污染面积占比明显高于其他场景,公园场景总体PM_(2.5)浓度较低,山体公园傍晚会受到周边工业区的影响而导致PM_(2.5)浓度升高,而城市陆地外围水域对沿岸PM_(2.5)浓度具有抑制作用;⑤研究结果可为不同场景下PM_(2.5)污染精细化治理、城市规划以及老人、儿童等高危人群的PM_(2.5)污染暴露风险防范提供支持。 展开更多
关键词 PM_(2.5)模拟 移动监测 城市场景 GWR GBDT 部分依赖图 时空分析 福州市主城区
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部