期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
Investigation of feature contribution to shield tunneling-induced settlement using Shapley additive explanations method 被引量:8
1
作者 K.K.Pabodha M.Kannangara Wanhuan Zhou +1 位作者 Zhi Ding Zhehao Hong 《Journal of Rock Mechanics and Geotechnical Engineering》 SCIE CSCD 2022年第4期1052-1063,共12页
Accurate prediction of shield tunneling-induced settlement is a complex problem that requires consideration of many influential parameters.Recent studies reveal that machine learning(ML)algorithms can predict the sett... Accurate prediction of shield tunneling-induced settlement is a complex problem that requires consideration of many influential parameters.Recent studies reveal that machine learning(ML)algorithms can predict the settlement caused by tunneling.However,well-performing ML models are usually less interpretable.Irrelevant input features decrease the performance and interpretability of an ML model.Nonetheless,feature selection,a critical step in the ML pipeline,is usually ignored in most studies that focused on predicting tunneling-induced settlement.This study applies four techniques,i.e.Pearson correlation method,sequential forward selection(SFS),sequential backward selection(SBS)and Boruta algorithm,to investigate the effect of feature selection on the model’s performance when predicting the tunneling-induced maximum surface settlement(S_(max)).The data set used in this study was compiled from two metro tunnel projects excavated in Hangzhou,China using earth pressure balance(EPB)shields and consists of 14 input features and a single output(i.e.S_(max)).The ML model that is trained on features selected from the Boruta algorithm demonstrates the best performance in both the training and testing phases.The relevant features chosen from the Boruta algorithm further indicate that tunneling-induced settlement is affected by parameters related to tunnel geometry,geological conditions and shield operation.The recently proposed Shapley additive explanations(SHAP)method explores how the input features contribute to the output of a complex ML model.It is observed that the larger settlements are induced during shield tunneling in silty clay.Moreover,the SHAP analysis reveals that the low magnitudes of face pressure at the top of the shield increase the model’s output。 展开更多
关键词 feature Selection Shield operational parameters Pearson correlation method Boruta algorithm shapley additive explanations(shap) analysis
下载PDF
基于XGBoost-SHAP的钢管混凝土柱轴向承载力预测模型 被引量:3
2
作者 陈曦泽 贾俊峰 +2 位作者 白玉磊 郭彤 杜修力 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2023年第6期1061-1070,共10页
为了可靠、准确地预测钢管混凝土(CFST)柱的轴向承载力,建立和解释集成机器学习的CFST柱轴向承载力预测模型.使用马氏距离评估CFST柱数据库质量,通过极限梯度提升(XGBoost)算法建立CFST柱轴向承载力预测模型,使用K折交叉验证(K-Fold CV... 为了可靠、准确地预测钢管混凝土(CFST)柱的轴向承载力,建立和解释集成机器学习的CFST柱轴向承载力预测模型.使用马氏距离评估CFST柱数据库质量,通过极限梯度提升(XGBoost)算法建立CFST柱轴向承载力预测模型,使用K折交叉验证(K-Fold CV)和树结构概率密度估计(TPE)算法寻找模型的最优超参数组合.采用不同评价指标将优化后XGBoost模型的预测值与已有方法和未优化XGBoost模型的计算值比较.使用SHAP方法给出XGBoost模型预测结果的整体和局部的解释.结果表明,经过超参数调整优化的XGBoost模型的性能超越了相关规范和经验公式的性能,且SHAP方法能够有效地解释XGBoost模型的输出. 展开更多
关键词 钢管混凝土(CFST)柱 轴向承载力 极限梯度提升(XGBoost) 超参数优化 shap 可解释性
下载PDF
山区公路交叉口驾驶避险决策行为特性分析
3
作者 秦雅琴 包丽馨 +2 位作者 陈亮 勾钰 王锦锐 《安全与环境学报》 CAS CSCD 北大核心 2024年第6期2295-2304,共10页
为研究驾驶特征指标与驾驶避险行为决策的关联规则以提升驾驶安全,将驾驶避险决策行为划分为纵向“停车避险”和横向“转向避险”,并运用驾驶模拟系统构建12种山区公路交叉口交通冲突虚拟场景,招募38名驾驶人进行试验,采集车辆特征和驾... 为研究驾驶特征指标与驾驶避险行为决策的关联规则以提升驾驶安全,将驾驶避险决策行为划分为纵向“停车避险”和横向“转向避险”,并运用驾驶模拟系统构建12种山区公路交叉口交通冲突虚拟场景,招募38名驾驶人进行试验,采集车辆特征和驾驶人扫视、眨眼、注视等眼动特征数据。基于随机森林构建驾驶避险决策行为模型,然后引入沙普利加和解释(SHapley Additive exPlanation, SHAP)框架进一步分析车辆、眼动特征与驾驶避险行为之间的非线性关系。结果表明:模型对纵、横向避险行为预测的准确率分别为84.77%、94.70%;纵向速度标准差、扫视持续时间标准差、轨迹偏差标准差、侧向速度标准差与驾驶避险决策行为存在明显关联,如纵向速度标准差过大(约大于10 km/h),纵向“停车避险”可能性明显增加。 展开更多
关键词 安全工程 驾驶避险 决策行为 驾驶模拟 分类预测 沙普利加和解释(shap)
下载PDF
页岩油水平井产量影响因素分析及压裂参数优化决策
4
作者 刘巍 曹小朋 +2 位作者 胡慧芳 程紫燕 卜亚辉 《油气藏评价与开发》 CSCD 北大核心 2024年第5期764-770,778,共8页
济阳坳陷页岩在沙三下亚段和沙四上亚段等主要产层获得重大突破,但开发时间短,存在单井产量差异较大,产量主控因素尚不明确的问题,深入分析页岩油水平井高产主控因素、优化确定合理压裂工艺参数仍是目前研究的重点。为明确各因素对水平... 济阳坳陷页岩在沙三下亚段和沙四上亚段等主要产层获得重大突破,但开发时间短,存在单井产量差异较大,产量主控因素尚不明确的问题,深入分析页岩油水平井高产主控因素、优化确定合理压裂工艺参数仍是目前研究的重点。为明确各因素对水平井产量的影响,基于矿场实际数据开展因素关联性分析和规律挖掘。利用灰色关联分析方法及主成分分析方法定量计算页岩油水平井生产90 d、180 d和270 d的平均日产油量与压裂液用量、加砂量等影响因素之间的相关性,并在此基础上建立页岩油产能预测模型,结合SHAP算法对压裂参数进行优化分析。结果表明:压裂液用量、加砂量和破裂事件数是影响产量的主要工程参数,灰质含量、总有机碳含量和页岩孔隙性是影响产量的主要地质参数;随着生产时间的延长,地质因素对产量的影响逐渐增强,工程因素对产量的影响逐渐减弱;压裂参数优化分析确定了40~45 m压裂段长,2700 m3单段压裂液用量,180 m3单段加砂量为最佳压裂施工参数,为页岩油水平井的开发决策和压裂设计提供了新的技术思路。 展开更多
关键词 水平井产量 影响因素分析 灰色关联分析 shap算法 页岩油
下载PDF
基于并行异构图和序列注意力机制的中文实体关系抽取模型
5
作者 毛典辉 李学博 +2 位作者 刘峻岭 张登辉 颜文婧 《计算机应用》 CSCD 北大核心 2024年第7期2018-2025,共8页
近年来,随着深度学习技术的快速发展,实体关系抽取在许多领域取得了显著的进展。然而,由于汉语具有复杂的句法结构和语义关系,面向中文的实体关系抽取任务中仍然存在着多项挑战。其中,中文文本中的重叠三元组问题是领域中的重要难题之... 近年来,随着深度学习技术的快速发展,实体关系抽取在许多领域取得了显著的进展。然而,由于汉语具有复杂的句法结构和语义关系,面向中文的实体关系抽取任务中仍然存在着多项挑战。其中,中文文本中的重叠三元组问题是领域中的重要难题之一。针对中文文本中的重叠三元组问题,提出了一种混合神经网络实体关系联合抽取(HNNERJE)模型。HNNERJE模型以并行方式融合序列注意力机制和异构图注意力机制,并结合门控融合策略构建了深度集成框架。该模型不仅可以同时捕获中文文本的语序信息和实体关联信息,还能够自适应地调整主客体标记器的输出,从而有效解决重叠三元组问题。另外,通过引入对抗训练算法提高模型对未见样本和噪声的适应能力。运用SHAP(SHapley Additive exPlanations)方法对HNNERJE模型进行解释分析,基于模型的识别结果解析它在抽取实体和关系时所依据的关键特征。HNNERJE模型在NYT、WebNLG、CMeIE和DuIE数据集上的F1值分别达到了92.17%、93.42%、47.40%和67.98%。实验结果表明:HNNERJE模型可以将非结构化的文本数据转化为结构化的知识表示,有效提取其中蕴含的有价值信息。 展开更多
关键词 实体关系抽取 异构图 注意力机制 对抗训练 shap方法
下载PDF
基于校准窗口集成与耦合市场特征的可解释双层日前电价预测
6
作者 刘慧鑫 沈晓东 +3 位作者 魏泽涛 刘友波 刘俊勇 白元宝 《中国电机工程学报》 EI CSCD 北大核心 2024年第4期1272-1285,I0003,共15页
随着电力市场之间耦合程度不断加深,只局限于单个市场内部的传统特征集不足以支撑高精度预测的需求。而且模型预测性能对校准窗口的选择敏感,而传统电价预测仅使用一个固定时间长度的数据集,同时预测模型的“黑盒”结构导致预测结果在... 随着电力市场之间耦合程度不断加深,只局限于单个市场内部的传统特征集不足以支撑高精度预测的需求。而且模型预测性能对校准窗口的选择敏感,而传统电价预测仅使用一个固定时间长度的数据集,同时预测模型的“黑盒”结构导致预测结果在工程应用中可信度偏低。针对上述问题,该文提出一种考虑校准窗口集成与耦合市场特征的可解释双层日前电价预测框架。内层框架为基于改进自适应噪声完备集合经验模态分解(improved complete ensemble empirical mode decomposition,ICEEMDAN)的择优预测,首先分解原始电价序列,然后应用Lasso估计回归(lassoestimated autoregressive,LEAR)、长期和短期时间序列网络(long-term and short-term time-series networks,LSTNet)、卷积神经网络-长短记忆神经网络(convolutionalneuralnetworks-longshort termmemory,CNN-LSTM)、移动平均(autoregressive integrated moving average,ARIMA)和核极限学习机(kernel extreme learning machines,KELM)模型预测子序列并选择最优预测算法。外层框架为基于贝叶斯模型平均(bayes modelaveraging,BMA)的校准窗口集成预测,针对每个不同校准窗口长度数据集下的预测分配权重并集成得到预测电价。最后,通过可解释方法沙普利加性解释模型(shapley additiveexplanations,SHAP)分析耦合市场特征如何影响预测电价。该文通过北欧电力市场数据集的算例分析证明了所提算法的优越性和校准窗口集成方案的有效性。 展开更多
关键词 校准窗口集成 耦合市场特征 双层预测框架 改进自适应噪声完备集合经验模态分解(ICEEMDAN) 贝叶斯模型平均(BMA) 沙普利加性解释模型(shap)
下载PDF
基于卷积神经网络的液化预测模型及可解释性分析
7
作者 龙潇 孙锐 郑桐 《岩土力学》 EI CAS CSCD 北大核心 2024年第9期2741-2753,共13页
常规液化判别方法通常是半经验方法,存在人为因素干扰,成功率及均衡性不佳。现有的机器学习方法缺乏足够的样本支撑,存在一定的局限性。通过整合液化数据集,选取修正标准贯击数、细粒含量、土层深度、地下水位深度、总上覆应力、有效上... 常规液化判别方法通常是半经验方法,存在人为因素干扰,成功率及均衡性不佳。现有的机器学习方法缺乏足够的样本支撑,存在一定的局限性。通过整合液化数据集,选取修正标准贯击数、细粒含量、土层深度、地下水位深度、总上覆应力、有效上覆应力、门槛加速度、循环剪应力比、剪切波速、震级与地表峰值加速度11个液化特征建立卷积神经网络(convolutional neural network,简称CNN)模型。引入边界合成少数过采样技术消除不平衡数据集的影响。将CNN模型与随机森林模型、逻辑回归模型、支持向量机模型、极致梯度提升模型和规范方法进行对比,并结合沙普利加性解释(SHapley Additive exPlanations,简称SHAP)分析输入特征对预测结果的影响趋势。结果表明,CNN模型准确率达92.58%,各项指标均优于其他4种机器学习模型和规范方法。对SHAP结果分析可知,修正标贯击数小于15的土层液化概率较高,循环剪应力比CSR小于0.25的土层更不易液化。各因素的影响规律均符合现有认知,预测模型合理可靠。 展开更多
关键词 机器学习 液化预测 卷积神经网络 边界合成少数过采样技术 沙普利加性解释(shap)
下载PDF
滇东喀斯特断陷盆地土壤有机碳空间分布特征及其关键影响因子
8
作者 李建付 黄志霖 +4 位作者 和成忠 姜昕 宋琳 刘佳鑫 陈利顶 《生态环境学报》 CSCD 北大核心 2024年第9期1339-1352,共14页
滇东喀斯特地区作为典型的生态脆弱区,土地石漠化和水土流失严重、景观空间异质性高,这些因素强烈影响着土壤性质和碳循环过程,为评估该地区土壤有机碳储量动态变化带来巨大困难。通过探究喀斯特地区土壤有机碳空间分布特征及其关键影... 滇东喀斯特地区作为典型的生态脆弱区,土地石漠化和水土流失严重、景观空间异质性高,这些因素强烈影响着土壤性质和碳循环过程,为评估该地区土壤有机碳储量动态变化带来巨大困难。通过探究喀斯特地区土壤有机碳空间分布特征及其关键影响因素,进而提升喀斯特土壤碳汇能力,对实现碳中和目标以及减缓全球气候变暖具有重要意义。基于滇东喀斯特地区典型区域土壤调查数据,利用地统计学方法、随机森林模型(RF)和SHAP解释方法(SHAP),分析了土壤有机碳空间分布特征和关键影响因子及其影响效应。结果表明,1)研究区表层土壤有机碳质量分数为1.45-56.0g·kg^(-1),变异系数为46.7%,空间变异较大。2)不同土地利用类型、土壤类型之间土壤有机碳含量差异显著(p<0.010),随着海拔上升,表层土壤有机碳含量呈现先下降后上升的趋势。3)土壤有机碳空间分布具有中等程度的空间自相关性(块金系数:48.4%),空间变异主要由总氮、总磷、降水量、海拔和pH主导,土壤氮、磷等关键因子解释了土壤有机碳88.5%的空间变异。4)关键影响因子对土壤有机碳的影响存在阈值或峰值效应。当总氮超过阈值点1.75g·kg^(-1)后,其对土壤有机碳的影响由负转正;总磷对土壤有机碳的正向贡献在1.50g·kg^(-1)左右时达到峰值,侧面证明了过度施磷肥并不能起到增加土壤肥力的作用,而可能会造成资源浪费和土地生态污染问题;海拔对土壤有机碳的正向贡献在1750 m左右时达到最大值;pH对土壤有机碳的正向贡献在4.45左右达到峰值。研究表明需要考虑关键因子的阈值或峰值效应,以便了解土壤有机碳积累的潜在过程。 展开更多
关键词 喀斯特断陷盆地 土壤有机碳 空间变异 随机森林模型 shap
下载PDF
基于逐步特征增广梯度提升的暂态功角稳定评估及可解释性分析
9
作者 刘旭 刘颂凯 +3 位作者 杨超 张磊 段雨舟 晏光辉 《现代电力》 北大核心 2024年第5期844-853,共10页
基于数据驱动的电力系统暂态功角稳定评估虽然可以提供较为准确的结果,但其评估结果缺乏可解释性,导致难以应用于工程实际中。针对该问题,提出一种基于逐步特征增广梯度提升(gradient boosting enhanced with step-wise feature augment... 基于数据驱动的电力系统暂态功角稳定评估虽然可以提供较为准确的结果,但其评估结果缺乏可解释性,导致难以应用于工程实际中。针对该问题,提出一种基于逐步特征增广梯度提升(gradient boosting enhanced with step-wise feature augmentation,AugBoost)的暂态功角稳定评估及可解释性分析方法。首先,通过训练AugBoost评估模型,建立电力系统输入特征与暂态功角稳定指标之间的映射关系;其次,将相量测量单元的实时量测数据传输到训练好的AugBoost评估模型中,提供实时评估结果;并根据沙普利值加性解释(Shapley additive explanations,SHAP)模型对评估结果和输入特征之间的关系进行解释,提高结果的可信度。最后,设计模型更新过程来提升评估模型面对电力系统运行工况变化的鲁棒性。在电力系统仿真软件PSS/E提供的23节点系统和1648节点系统上的仿真结果验证了所提方法的有效性。 展开更多
关键词 暂态功角稳定评估 逐步特征增广梯度提升 沙普利值加性解释 可解释性分析 模型更新
下载PDF
Landslide susceptibility mapping(LSM)based on different boosting and hyperparameter optimization algorithms:A case of Wanzhou District,China
10
作者 Deliang Sun Jing Wang +2 位作者 Haijia Wen YueKai Ding Changlin Mi 《Journal of Rock Mechanics and Geotechnical Engineering》 SCIE CSCD 2024年第8期3221-3232,共12页
Boosting algorithms have been widely utilized in the development of landslide susceptibility mapping(LSM)studies.However,these algorithms possess distinct computational strategies and hyperparameters,making it challen... Boosting algorithms have been widely utilized in the development of landslide susceptibility mapping(LSM)studies.However,these algorithms possess distinct computational strategies and hyperparameters,making it challenging to propose an ideal LSM model.To investigate the impact of different boosting algorithms and hyperparameter optimization algorithms on LSM,this study constructed a geospatial database comprising 12 conditioning factors,such as elevation,stratum,and annual average rainfall.The XGBoost(XGB),LightGBM(LGBM),and CatBoost(CB)algorithms were employed to construct the LSM model.Furthermore,the Bayesian optimization(BO),particle swarm optimization(PSO),and Hyperband optimization(HO)algorithms were applied to optimizing the LSM model.The boosting algorithms exhibited varying performances,with CB demonstrating the highest precision,followed by LGBM,and XGB showing poorer precision.Additionally,the hyperparameter optimization algorithms displayed different performances,with HO outperforming PSO and BO showing poorer performance.The HO-CB model achieved the highest precision,boasting an accuracy of 0.764,an F1-score of 0.777,an area under the curve(AUC)value of 0.837 for the training set,and an AUC value of 0.863 for the test set.The model was interpreted using SHapley Additive exPlanations(SHAP),revealing that slope,curvature,topographic wetness index(TWI),degree of relief,and elevation significantly influenced landslides in the study area.This study offers a scientific reference for LSM and disaster prevention research.This study examines the utilization of various boosting algorithms and hyperparameter optimization algorithms in Wanzhou District.It proposes the HO-CB-SHAP framework as an effective approach to accurately forecast landslide disasters and interpret LSM models.However,limitations exist concerning the generalizability of the model and the data processing,which require further exploration in subsequent studies. 展开更多
关键词 Landslide susceptibility Hyperparameter optimization Boosting algorithms shapley additive explanations(shap)
下载PDF
Dynamic Forecasting of Traffic Event Duration in Istanbul:A Classification Approach with Real-Time Data Integration
11
作者 Mesut Ulu Yusuf Sait Türkan +2 位作者 Kenan Menguc Ersin Namlı Tarık Kucukdeniz 《Computers, Materials & Continua》 SCIE EI 2024年第8期2259-2281,共23页
Today,urban traffic,growing populations,and dense transportation networks are contributing to an increase in traffic incidents.These incidents include traffic accidents,vehicle breakdowns,fires,and traffic disputes,re... Today,urban traffic,growing populations,and dense transportation networks are contributing to an increase in traffic incidents.These incidents include traffic accidents,vehicle breakdowns,fires,and traffic disputes,resulting in long waiting times,high carbon emissions,and other undesirable situations.It is vital to estimate incident response times quickly and accurately after traffic incidents occur for the success of incident-related planning and response activities.This study presents a model for forecasting the traffic incident duration of traffic events with high precision.The proposed model goes through a 4-stage process using various features to predict the duration of four different traffic events and presents a feature reduction approach to enable real-time data collection and prediction.In the first stage,the dataset consisting of 24,431 data points and 75 variables is prepared by data collection,merging,missing data processing and data cleaning.In the second stage,models such as Decision Trees(DT),K-Nearest Neighbour(KNN),Random Forest(RF)and Support Vector Machines(SVM)are used and hyperparameter optimisation is performed with GridSearchCV.In the third stage,feature selection and reduction are performed and real-time data are used.In the last stage,model performance with 14 variables is evaluated with metrics such as accuracy,precision,recall,F1-score,MCC,confusion matrix and SHAP.The RF model outperforms other models with an accuracy of 98.5%.The study’s prediction results demonstrate that the proposed dynamic prediction model can achieve a high level of success. 展开更多
关键词 Traffic event duration forecasting machine learning feature reduction shapley additive explanations(shap)
下载PDF
基于特征提取的锂离子电池健康状态评估及影响因素分析 被引量:14
12
作者 顾菊平 蒋凌 +2 位作者 张新松 华亮 程天宇 《电工技术学报》 EI CSCD 北大核心 2023年第19期5330-5342,共13页
健康状态(SOH)评估是电池管理系统的核心功能之一,是确保电化学储能系统安全稳定运行的重要前提。为解决现有评估模型精度不足、复杂度高与可解释性低的问题,提出一种基于特征提取的锂离子电池SOH评估及影响因素分析方法。首先,提出两... 健康状态(SOH)评估是电池管理系统的核心功能之一,是确保电化学储能系统安全稳定运行的重要前提。为解决现有评估模型精度不足、复杂度高与可解释性低的问题,提出一种基于特征提取的锂离子电池SOH评估及影响因素分析方法。首先,提出两个量化初始循环充电电压曲线和当前循环充电电压曲线相似性的新健康特征,即动态时间规整距离特征和Wasserstein距离特征;其次,采用CatBoost方法评估电池SOH,并引入SHAP方法分析各健康特征对评估结果的影响及特征间的耦合关系;最后,利用马里兰大学电池老化数据集中多块电池数据进行实验验证。实验结果表明,提出的SOH评估方法精度较高,平均误差均小于2.2%,且能定量解析SOH影响因素。 展开更多
关键词 锂离子电池 健康状态 特征提取 CatBoost shap
下载PDF
基于机器学习的公交驾驶员事故风险识别及影响因素研究 被引量:2
13
作者 朱彤 秦丹 +2 位作者 魏雯 任杰 冯移冬 《中国安全科学学报》 CAS CSCD 北大核心 2023年第2期23-30,共8页
为从公交驾驶员群体中识别出易发生事故的风险公交驾驶员,结合某市公交公司营运安全管理系统数据库、百度应用程序接口(API)及网络爬取技术,并应用K近邻算法补充缺失值,获取42条线路及1893名驾驶员的数据;基于驾驶员、车辆、线路特征、... 为从公交驾驶员群体中识别出易发生事故的风险公交驾驶员,结合某市公交公司营运安全管理系统数据库、百度应用程序接口(API)及网络爬取技术,并应用K近邻算法补充缺失值,获取42条线路及1893名驾驶员的数据;基于驾驶员、车辆、线路特征、违规行为、事故、管理等基本特征变量构造派生变量;采用包括递归特征消除、有惩罚项的逻辑回归、随机森林的集成方法选择特征;采用极致梯度提升(XGBoost)等6种机器方法分别建立分类模型,并采用贝叶斯方法优化超参数。结果表明:在构建的6个分类模型中,XGBoost方法构建的模型其受试者工作特征(ROC)曲线下的面积(AUC)评估结果最佳;运用贝叶斯方法优化模型,可以在一定程度上提升ROC的AUC指标;对于风险公交驾驶员预测准确率达到98.66%,运营单位还可以根据自身情况权衡虚报率与命中率代价。此外,车辆服役时间、违规次数等特征对于事故风险具有明显的非线性影响。 展开更多
关键词 风险公交驾驶员 机器学习 事故风险 极致梯度提升(XGBoost) shapley加性解释(shap)值
下载PDF
基于机器学习构建非酒精性脂肪性肝病预测模型 被引量:1
14
作者 刘璐 朱锦舟 +4 位作者 刘晓琳 王超 殷民月 高静雯 许春芳 《肝脏》 2023年第4期469-473,共5页
目的利用H2O平台自动化机器学习(AutoML)框架,建立非酒精性脂肪性肝病的预测模型。方法收集苏州大学附属第一医院体检中心人员资料。利用临床结构化数据,基于H2O AutoML框架,建立预测非酒精性脂肪性肝病发病的多种机器学习算法模型,绘制... 目的利用H2O平台自动化机器学习(AutoML)框架,建立非酒精性脂肪性肝病的预测模型。方法收集苏州大学附属第一医院体检中心人员资料。利用临床结构化数据,基于H2O AutoML框架,建立预测非酒精性脂肪性肝病发病的多种机器学习算法模型,绘制ROC曲线并建立混淆矩阵来评价模型效力,同时对重要变量进行可视化呈现。结果自动化建立28个机器学习模型。最佳模型为梯度提升机(GBM),Gini值为0.80,R2为0.42,LogLoss为0.45。模型中重要性绝对值排名前五的变量为:三酰甘油(95%CI:-1.053~-0.887)、天冬氨酸转氨酶(95%CI:-20.433~-16.927)、高密度脂蛋白(95%CI:0.232~0.268)、铁蛋白(95%CI:-80.533~-68.607)及血糖(95%CI:-0.576~-0.424)。最佳模型GBM在验证集中特异度为0.818,敏感度为0.715,AUC为0.766,优于基于XGBoost、逻辑回归、随机森林和深度学习等算法类型。结论非酒精性脂肪性肝病的机器学习模型为筛查非酒精性脂肪性肝病患者提供了新的诊疗思路。 展开更多
关键词 非酒精性脂肪性肝病 自动化机器学习 预测模型
下载PDF
基于MW-REF算法的心肺复苏影响因素分析 被引量:2
15
作者 张友坤 陈伟 +3 位作者 靳小静 孙洁 李瑞月 张瑛琪 《科学技术与工程》 北大核心 2023年第22期9543-9549,共7页
针对传统模型对心肺复苏结果预测准确率较低、模型可解释性较差,提出了一种基于多模型加权递归消除法(MW-REF)的心肺复苏结果预测模型,并在Shapley加法解释(Shapley additive explanation,SHAP)框架下分析影响心肺复苏结果的关键因素。... 针对传统模型对心肺复苏结果预测准确率较低、模型可解释性较差,提出了一种基于多模型加权递归消除法(MW-REF)的心肺复苏结果预测模型,并在Shapley加法解释(Shapley additive explanation,SHAP)框架下分析影响心肺复苏结果的关键因素。采用了随机森林、GBDT、XGBOOST作为基模型,将其特征重要性得分加权后使用递归消除法过滤特征并对3种及模型采用Voting进行模型融合,利用五折交叉验证下的准确率作为最终特征选择标准。最后对最终特征数据集下的融合模型进行可解释性分析。实验结果表明,与传统的递归特征消除算法对比,该模型提升了心肺复苏结果预测的准确率,模型预测结果具有可解释性,可为临床诊断提供辅助,提高诊断效率与心肺复苏成功率。 展开更多
关键词 多模型加权递归特征消除法 心肺复苏 模型融合 shap
下载PDF
考虑建成环境交互影响的共享单车需求预测
16
作者 魏晋 安实 张炎棠 《科学技术与工程》 北大核心 2023年第26期11424-11430,共7页
共享单车的发展有利于交通的节能减排绿色发展。建成环境是影响共享单车出行需求的重要因素,然而很少有学者探究考虑其交互作用。为了准确分析建成环境中各影响因素的交互作用以达到精确预测共享单车出行需求的目的,使用了深圳市共享单... 共享单车的发展有利于交通的节能减排绿色发展。建成环境是影响共享单车出行需求的重要因素,然而很少有学者探究考虑其交互作用。为了准确分析建成环境中各影响因素的交互作用以达到精确预测共享单车出行需求的目的,使用了深圳市共享单车出行数据、兴趣点数据(point of interest,POI)、路网数据和公交线路数据等多源数据,采用梯度提升决策树(gradient boosting decision tree,GBDT)模型预测共享单车出行需求,并与BP(back propagation)神经网络模型预测结果进行比较;最后借助SHAP(shapley additive explanation)方法解释GBDT模型中各种影响因子对共享单车出行需求产生的影响,并分析各影响因素及其交互作用。实验结果表明:GBDT模型预测结果平均绝对误差为0.683,均方根误差为0.728,较BP神经网络模型预测准确性更高;通过SHAP方法发现自行车道密度、公交站点数等交通属性因素对于共享单车出行需求作用明显,土地利用中土地利用混合度不是简单线性作用且不同POI间存在复杂交互关系。可见通过借助GBDT模型和SHAP方法可以用来共享单车出行需求预测以及影响因素分析,从而为共享单车发展提出改善建议。 展开更多
关键词 共享单车 需求预测 POI数据 梯度提升决策树 shap(shapley additive explanation)
下载PDF
基于机器学习的非心肺转流冠状动脉旁路移植术相关急性肾损伤的预测模型 被引量:2
17
作者 曾智贺 张铁铮 +3 位作者 刁玉刚 宋沛 衣卓 李林 《临床麻醉学杂志》 CAS CSCD 北大核心 2023年第5期453-460,共8页
目的建立基于机器学习的非心肺转流冠状动脉旁路移植术相关的急性肾损伤(OPCABG-AKI)可解释性机器学习预测模型。方法回顾性收集2018—2021年行OPCABG的1110例患者的临床资料。建立并比较8种机器学习模型,采用Python的SHAP模型解释包对... 目的建立基于机器学习的非心肺转流冠状动脉旁路移植术相关的急性肾损伤(OPCABG-AKI)可解释性机器学习预测模型。方法回顾性收集2018—2021年行OPCABG的1110例患者的临床资料。建立并比较8种机器学习模型,采用Python的SHAP模型解释包对预测性能最佳的黑箱模型进行解释性分析。将特征参数SHAP绝对值的平均值定义为该参数的重要性并进行排序;以SHAP值为依据确定各特征参数与OPCABG-AKI的关系;对主要风险因素进行单个特征量化分析;对模型中具有代表性的真阳性及真阴性样本进行独立的解释性分析。结果共有405例(36.5%)患者发生AKI。在8种机器学习模型中,随机森林(RF)预测模型性能最优,针对阳性样本的受试者工作特征曲线(ROC)下面积(AUC)为0.90(95%CI 0.86~0.94)。SHAP模型解释性分析结果显示术中尿量对RF模型的贡献最大,其次为诱导期循环变异系数、术中右美托咪定用量、术中舒芬太尼用量、术中低血压时间、术前血清肌酐基线、APACHEⅡ分数和年龄等。结论以随机森林集成学习算法构建模型可较好地预测OPCABG-AKI,模型中术中尿量等指标与OPCABG-AKI关系密切。 展开更多
关键词 非心肺转流冠状动脉旁路移植术 急性肾损伤 机器学习 可解释性模型
下载PDF
Explainable Artificial Intelligence-Based Model Drift Detection Applicable to Unsupervised Environments
18
作者 Yongsoo Lee Yeeun Lee +1 位作者 Eungyu Lee Taejin Lee 《Computers, Materials & Continua》 SCIE EI 2023年第8期1701-1719,共19页
Cybersecurity increasingly relies on machine learning(ML)models to respond to and detect attacks.However,the rapidly changing data environment makes model life-cycle management after deployment essential.Real-time det... Cybersecurity increasingly relies on machine learning(ML)models to respond to and detect attacks.However,the rapidly changing data environment makes model life-cycle management after deployment essential.Real-time detection of drift signals from various threats is fundamental for effectively managing deployed models.However,detecting drift in unsupervised environments can be challenging.This study introduces a novel approach leveraging Shapley additive explanations(SHAP),a widely recognized explainability technique in ML,to address drift detection in unsupervised settings.The proposed method incorporates a range of plots and statistical techniques to enhance drift detection reliability and introduces a drift suspicion metric that considers the explanatory aspects absent in the current approaches.To validate the effectiveness of the proposed approach in a real-world scenario,we applied it to an environment designed to detect domain generation algorithms(DGAs).The dataset was obtained from various types of DGAs provided by NetLab.Based on this dataset composition,we sought to validate the proposed SHAP-based approach through drift scenarios that occur when a previously deployed model detects new data types in an environment that detects real-world DGAs.The results revealed that more than 90%of the drift data exceeded the threshold,demonstrating the high reliability of the approach to detect drift in an unsupervised environment.The proposed method distinguishes itself fromexisting approaches by employing explainable artificial intelligence(XAI)-based detection,which is not limited by model or system environment constraints.In conclusion,this paper proposes a novel approach to detect drift in unsupervised ML settings for cybersecurity.The proposed method employs SHAP-based XAI and a drift suspicion metric to improve drift detection reliability.It is versatile and suitable for various realtime data analysis contexts beyond DGA detection environments.This study significantly contributes to theMLcommunity by addressing the critical issue of managing ML models in real-world cybersecurity settings.Our approach is distinguishable from existing techniques by employing XAI-based detection,which is not limited by model or system environment constraints.As a result,our method can be applied in critical domains that require adaptation to continuous changes,such as cybersecurity.Through extensive validation across diverse settings beyond DGA detection environments,the proposed method will emerge as a versatile drift detection technique suitable for a wide range of real-time data analysis contexts.It is also anticipated to emerge as a new approach to protect essential systems and infrastructures from attacks. 展开更多
关键词 CYBERSECURITY machine learning(ML) model life-cycle management drift detection unsupervised environments shapley additive explanations(shap) explainability
下载PDF
共同富裕视角下巩固乡村振兴成果的多维农户发展研究——基于甘肃省白银市、金昌市调研数据
19
作者 吴洋 张钰颖 敬程皓 《科技和产业》 2023年第19期182-190,共9页
随着脱贫治理背景的全方位转换,为巩固阶段救助成果,研究关键影响因素及政策对西部地区经济发展和政策实施效果具有现实意义。选择具有区域性特征的白银市和金昌市,结合民政部实地调研数据,构建可持续生计理论下的多维农户发展现状指标... 随着脱贫治理背景的全方位转换,为巩固阶段救助成果,研究关键影响因素及政策对西部地区经济发展和政策实施效果具有现实意义。选择具有区域性特征的白银市和金昌市,结合民政部实地调研数据,构建可持续生计理论下的多维农户发展现状指标评价体系。使用随机森林、极限梯度提升(XGBoost)、可加性解释(SHAP)模型,筛选、识别、验证关键因素及特征重要性,结合甘肃省政策实施效果,提出可行性建议,为乡村区域性可持续发展政策制定实施提供方向。 展开更多
关键词 乡村振兴 多维识别指标体系 随机森林 极限梯度提升(XGBoost) 可加性解释(shap)
下载PDF
基于自然梯度提升的静态电压稳定裕度预测及其影响因素分析 被引量:5
20
作者 王强 陈浩 刘炼 《电力系统及其自动化学报》 CSCD 北大核心 2022年第9期130-137,共8页
为提升电压稳定裕度预测的精准度和增强预测模型的可解释性,将自然梯度提升算法与沙普利值加性解释理论应用于电压稳定裕度预测中。以离线样本为基础,采用自然梯度提升算法探索运行状态变量与电压稳定裕度间的非线性映射关系,构建自然... 为提升电压稳定裕度预测的精准度和增强预测模型的可解释性,将自然梯度提升算法与沙普利值加性解释理论应用于电压稳定裕度预测中。以离线样本为基础,采用自然梯度提升算法探索运行状态变量与电压稳定裕度间的非线性映射关系,构建自然梯度提升驱动的电压稳定裕度预测模型。然后,引入沙普利值加性解释理论对自然梯度提升模型进行解释,构建基于沙普利值加性解释理论的电压稳定裕度预测影响因素分析架构,并通过全局分析和个体分析两个角度,给出各特征量对于电压稳定裕度预测的具体影响过程,挖掘出导致系统电压稳定裕度降低的关键因素。在新英格兰39节点系统上的算例分析结果表明,与其他算法相比,自然梯度提升不仅具有最佳的预测精度,还拥有良好的鲁棒性与泛化能力,并且基于沙普利值加性解释理论的影响因素分析架构为电压稳定裕度预测提供了依据和支撑。 展开更多
关键词 电压稳定裕度 机器学习 自然梯度提升 沙普利值加性解释 可解释性
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部