可解释的机器学习模型预测缺血性脑卒中患者预后研究

Interpretable machine learning-based models in predicting prognoses in stroke patients

导出

摘要目的探讨可解释的机器学习模型预测急性缺血性脑卒中预后的应用价值。方法选取广东医科大学附属湛江中心医院神经内科自2020年3月至2023年10月实施静脉溶栓治疗的296例急性缺血性脑卒中患者为研究对象,随访3个月后使用改良Rankin量表评估预后(0~2分定义为预后良好,3~6分定义为预后不良)。回顾性收集患者的临床资料,并采用多因素Logistic回归分析筛选出患者预后的独立影响因素。以3∶2比例将患者随机分为训练集(n=178)和测试集(n=118),以预后独立影响因素为特征变量训练10种机器学习模型(逻辑回归、随机森林、支持向量机、朴素贝叶斯、线性判别分析、混合判别分析、灵活判别分析、梯度增强机、极端梯度提升和分类梯度提升),分别使用校准曲线、精确-召回曲线、精确-召回增益曲线及受试者工作特征曲线评估这10种机器学习模型的预测性能,使用Shapley加法解释(SHAP)对机器学习模型附加解释和可视化(包含全局解释和局部解释)。结果296例患者中预后不良72例。年龄(OR=1.039,95%CI:1.008~1.072,P=0.015)、美国国立卫生研究院卒中量表评分(OR=1.213,95%CI:1.000~1.337,P<0.001)、格拉斯哥昏迷量表评分(OR=0.470,95%CI:0.289~0.765,P=0.002,)、卒中预测工具-Ⅱ评分(OR=1.257,95%CI:1.043~1.516,P=0.016)、C反应蛋白水平(OR=1.709,95%CI:1.398~2.087,P<0.001)和血小板计数(OR=0.988,95%CI:0.978~0.998,P=0.016)是患者预后的独立影响因素。在10种机器学习模型中,极端梯度提升模型预测患者预后的性能最高(校准曲线评估示一致性指数为0.896,精确-召回曲线评估示曲线下面积为0.791,精确-召回增益曲线示曲线下面积为0.363,受试者工作特征曲线示曲线下面积为0.856)。全局解释中SHAP直观图显示特征变量的重要性排序依次为C反应蛋白、美国国立卫生研究院卒中量表评分、血小板计数、格拉斯哥昏迷量表评分、卒中预测工具-Ⅱ评分和年龄;SHAP散点图可视化了6个特征变量的贡献方向,呈"两端分布"现象;SHAP依赖图显示了6个特征变量的观测值与SHAP值间的依赖关系,其中C反应蛋白趋势最为显著。SHAP力图为单个样本提供了局部解释,使得极端梯度提升模型更加透明和可解释性。结论基于年龄、美国国立卫生研究院卒中量表评分、格拉斯哥昏迷量表评分、卒中预测工具-Ⅱ评分、C反应蛋白水平和血小板计数为特征变量的极端梯度提升模型预测急性缺血性脑卒中患者预后的性能最优,在此基础上结合SHAP进行模型解释和可视化,有助于理解各特征变量对预测结果的贡献大小及方向。 ObjectiveTo explore the value of interpretable machine learning model in predicting the prognoses of patients with acute ischemic stroke..MethodsA total of 296 patients with acute ischemic stroke who received intravenous thrombolysis in Zhanjiang Central Hospital,Guangdong Medical University from March 2020 to October 2023 were selected.Prognosis was assessed 3 months after follow-up using modified Rankin scale(scores of 0-2:good prognosis;scores of 3-6:poor prognosis).Clinical data were collected and analyzed retrospectively,and independent influencing factors for prognoses were analyzed by multivariate Logistic regression.These patients were randomly divided into training dataset(n=178)and test dataset(n=118)in a 3:2 ratio;independent influencing factors were used as characteristic variables to train these 10 machine learning models,including Logistic regression,random forest,support vector machine,naive Bayesian model,linear discriminant analysis,mixture discriminant analysis,flexible discriminant analysis,gradient boosting machine,extreme gradient boosting,and category boosting.Prediction performance of these 10 machine learning models were evaluated using calibration curve,precise-recall curve,precision-recall gain curve and receiver operating characteristic(ROC)curve.Interpretation and visualization were added via Shapley Additive exPlanation(SHAP)to the machine learning models(including global interpretation and local interpretation).ResultsOf the 296 patients,72 had a poor prognosis.Age(OR=1.039,95%CI:1.008-1.072,P=0.015),National Institute of Health Stroke Scale score(OR=1.213,95%CI:1.000-1.337,P<0.001),Glasgow Coma Scale score(OR=0.470,95%CI:0.289-0.765,P=0.002),Stroke Prognostic Instrument-Ⅱscore(OR=1.257,95%CI:1.043-1.516,P=0.016,),C-reactive protein(OR=1.709,95%CI:1.398-2.087,P<0.001)and platelet count(OR=0.988,95%CI:0.978-0.998,P=0.016)were independent influencing factors for prognoses.Among the 10 machine learning algorithms,calibration curve(C-inder:0.896),precise-recall curve(area under the curve[AUC]:0.791),precision-recall gain curve(AUC:0.363),and ROC curve(AUC:0.856)in both the training and test sets confirmed that the XGBoost model has the highest performance in predicting prognoses.SHAP visualisation diagram indicated that order of importance was C-reactive protein,National Institutes of Health Stroke Scale,platelet count,Glasgow Coma Scale,Stroke Prediction Tool-II,and age.SHAP scatter plot visualized the contribution direction of these 6 characteristic variables,with bimodal distribution.SHAP dependence plot indicated dependence between values of 6 characteristic variables and SHAP values,with C-reactive protein enjoying the most significant trend.SHAP plot provided local interpretation for individual sample,making the extreme gradient enhancement model more transparent and interpretable.ConclusionXGBoost model incorporating age,National Institute of Health Stroke Scale,Glasgow Coma Scale,Stroke Prognostic Instrument-Ⅱ,C-reactive protein,and platelet count can differentiate poor prognosis from good prognosis in patients with acute ischemic stroke with high accuracy;on this basis,the model interpretation and visualization combined with SHAP are helpful to understand the contribution and direction of each characteristic variable to the prediction results.

作者李新鸿麦晖符铁译陈建雅 Li Xinhong;Mai Hui;Fu Tieyi;Chen Jianya(Zhanjiang Central Hospital,Guangdong Medical University,Zhanjiang 524000,China)

机构地区广东医科大学附属湛江中心医院神经内科

出处《中华神经医学杂志》 CAS CSCD 北大核心 2024年第8期817-827,共11页 Chinese Journal of Neuromedicine

基金湛江市科技计划项目(2020B01112)。

关键词急性缺血性脑卒中预后机器学习模型极端梯度提升模型 Shapley加法解释 Acute ischemic stroke Prognosis Machine learning model Extreme gradient boosting model Shapley Additive exPlanation

分类号 R743.3 [医药卫生—神经病学与精神病学]

引文网络
相关文献

参考文献2

1中国老年医学学会急诊医学分会,中华医学会急诊医学分会卒中学组,中国卒中学会急救医学分会,柴艳芬,陈玉国,陈晓辉,陈旭岩,陈凤英,陈志,陈力,丁宁,邓颖,邓曼,范西真,高恒波,高伟波,顾伟,顾彬,郭树彬,郭东风,韩永生,郝剑,何小军,何志红,何建,贺曦,胡北,洪玉才,侯宇飞,姬新才,冀兵,江旺祥,江稳强,姜素文,蒋旭九,金红旭,康海,康健,兰超,黎檀实,李莉,李建国,李杰,李桂云,李培武,李志刚,李学斌,李小刚,李尚伦,李其富,李力卓,李凤杰,果枫,廖晓凌,刘红梅,刘明华,刘明森,刘玉法,刘纪宁,刘爱华,刘世伟,陆峰,吕传柱,卢中秋,陆远强,马剡芳,马岳峰,马中富,孟庆义,孟广军,潘曙明,秦厉杰,秦宇红,宋海晶,孙勇,单志刚,单毅,商德亚,沈正善,盛继军,谭秀岭,唐艳,唐新宇,王仲,王宇新,王江,王聪,王旭东,王伯良,王玉红,王少平,魏捷,伍国锋,吴国平,吴晓飞,吴彩军,武铜,熊辉,肖力屏,许铁,徐峰,闫柏刚,燕重远,杨蓉佳,杨建中,阳世雄,姚丹林,尹文,尹永杰,余涛,叶丹,喻安永,袁光雄,曾红科,宗建平,纵雪梅,赵斌,赵敏,赵宇宏,詹红,张文中,张国强,张茂,张劲松,张文武,张泓,张进军,张玉,张均,张云霞,张重阳,张良,张蜀,张海燕,张晓几,郑亚安,祝振忠,朱勤忠,朱良付.急性缺血性脑卒中急诊急救中国专家共识（2018）[J].中国急救医学,2018,38(7):557-564. 被引量：310
2郑雯丽,邓仁丽,邱业银,杨柳,侯莉梅,梁恒.缺血性脑卒中复发风险预测模型的研究进展[J].中华神经医学杂志,2020,19(4):408-412. 被引量：15

二级参考文献29

1王伊龙,王拥军,吴敌,赵性泉,王文志,吴兆苏,张通,赵元立,高山,廖晓凌,陈伟伟.中国卒中防治研究现状[J].中国卒中杂志,2007,2(1):20-37. 被引量：105
2贾爱明,谭婧,胡文梅,张策,张红,刘耘.缺血性脑卒中复发的体质因素及中医诱因[J].中国老年学杂志,2014(9):2435-2437. 被引量：41
3马锐华,王拥军.卒中中心的研究进展[J].中国康复医学杂志,2005,20(4):307-309. 被引量：7
4王亚冰,焦力群,王亚东,凌锋.北京市三甲医院急性脑血管病患者发病至治疗延迟时间分布[J].中国神经精神疾病杂志,2009,35(1):22-25. 被引量：39
5王伊龙,吴敌,周永,赵性泉,王春雪,王拥军.中国七城市卒中患者急诊溶栓情况分析[J].中国卒中杂志,2009,4(1):23-28. 被引量：72
6康维为.不同院前急救评价方法对急性脑卒中患者诊治效果的影响[J].中国全科医学,2011,14(2):208-209. 被引量：19
7马玉宝,李成文,李卫东.急性脑卒中患者院前时间延误的影响因素分析[J].中国全科医学,2011,14(29):3380-3381. 被引量：48
8Edward C. Jauch,Jeffrey L. Saver,Harold P. Adams,Askiel Bruno,J.J. (Buddy) Connors,Bart M. Demaerschalk,Pooja Khatri,Paul W. McMullan,Adnan I. Qureshi,Kenneth Rosenfield,Phillip A. Scott,Debbie R. Summers,David Z. Wang,Max Wintermark,Howard Yonas,李海峰(译),岳耀先(译),王琦(译),张贤军(译),丁晓君(译).急性缺血性卒中患者早期处理指南：美国心脏协会／美国卒中协会对医疗专业人员的指南（续前）[J].国际脑血管病杂志,2013,21(8):564-605. 被引量：993
9谭英,耿德勤,黄水平.用人工神经网络建立缺血性脑卒中复发的预测模型[J].中国卫生统计,2013,30(5):687-689. 被引量：23
10王文,朱曼璐,王拥军,吴兆苏,高润霖,孔灵芝,胡盛寿.《中国心血管病报告2012》概要[J].中国循环杂志,2013,28(6):408-412. 被引量：272

共引文献323

1苏莉.早期路径式康复护理对急性脑梗死溶栓后患者神经功能及运动功能恢复的影响[J].慢性病学杂志,2023(9):1359-1361. 被引量：2
2黄河.化痰通络汤联合补阳还五汤治疗脑梗死患者临床疗效研究[J].亚太传统医药,2021,17(9):64-66. 被引量：2
3陈亮,陈翔,李伟,黄豪.丁苯酞联合左卡尼汀对急性缺血性脑卒中患者血液流变学及预后的影响[J].西藏医药,2021,42(6):91-92.
4翟月芳,朱正太,赵春芝,鞠俊强,黄玉静.高强度阿托伐他汀联合氯吡格雷治疗老年缺血性脑卒中的效果及对Lp-PLA2、CXCL21和神经相关因子水平的影响[J].武警后勤学院学报（医学版）,2020(11):35-38. 被引量：9
5刘建新,王刚,雷光文.S-100B、LP-PLA2、circ_0021132在急性脑梗死中的表达及与复发的关系[J].湖南师范大学学报（医学版）,2024,21(1):119-123.
6李艳珍.轻型急性缺血性脑卒中患者静脉溶栓治疗的效果[J].世界最新医学信息文摘,2021(12):55-56.
7林世泳.奥扎格雷钠对急性脑梗死患者血液流变学及血清TNF-α、CRP、IL-6水平的影响[J].反射疗法与康复医学,2021,2(19):39-41.
8国家卒中急救地图工作委员会,国家卒中急救地图共识专家组,叶石生,隋轶,蔡婧婧,楚兰,方琪,葛朝明,吉训明,李梅,李玉生,刘建民,楼敏,缪中荣,任力杰,宋海庆,武剑,王陇德,许予明,杨弋,袁军,岳伟,张永巍,赵静.卒中急救地图专家共识[J].中华行为医学与脑科学杂志,2019,28(1):2-11. 被引量：26
9张敏敏,李子付,李强,陈蕾,朱宣,姜一,吴涛,张永巍,杨鹏飞,刘建民,邓本强.转诊对大血管闭塞急性缺血性脑卒中血管内治疗救治效果的影响[J].第二军医大学学报,2018,39(9):983-990. 被引量：6
10孙洋洋,周李娅,葛晓利,王海嵘,陈淼.急性缺血性脑卒中静脉溶栓预后预警指标研究[J].中华急诊医学杂志,2019,28(2):214-218. 被引量：33

1杨俨婷(执教),韩明炬(评析),徐素君(评析).“观察物体”教学实录与评析[J].小学数学教育,2024(9):53-55.
2雷源(执教),余雪英(评析),陈光珍(评析).建构“趣动”课堂,发展数学核心素养——“观察物体”教学实录与评析[J].小学数学教育,2024(9):51-52.
3谢红卫,艾德艳,樊明超,李春荣.入院时全身炎症反应指数预测基底节区自发性脑出血患者术后转归[J].国际脑血管病杂志,2024,32(4):260-265.
4丁佳莉,刘晓光,史甜,马强,祁雅婕,李育平,于海龙,卢光玉.基于机器学习算法的重症脑出血患者肠内营养喂养不耐受风险预测模型构建[J].实用临床医药杂志,2024,28(12):1-6.
5赵瑶瑶,田春华.基于模型构建落实生命观念的教学实践——以“心脏与血液循环”为例[J].生物学通报,2024,59(6):64-67.
6常瑜珠,万青,张娟娟.基于直观图的(三支)近似概念获取研究[J].西南大学学报（自然科学版）,2024,46(5):51-66.
7张力芝.基于机器学习算法的乳腺癌诊断分析[J].运筹与模糊学,2024,14(4):397-405.
8高硕,郭思尧,孙延,李金鹿,郝习君,成杰.高血压脑出血患者急性期核心症状群及与生活质量相关性研究[J].现代预防医学,2024,51(16):3055-3061.
9乔璐,何瑞华,张宁宁,张媛,刘艳慧.高频肌骨超声诊断踝关节外侧副韧带损伤及其评估预后的价值[J].中文科技期刊数据库（文摘版）医药卫生,2024(9):0173-0176.
10吕淑娟.聋校“分数乘法应用题“教学案例[J].中文科技期刊数据库（文摘版）教育,2015(9):144-144.

中华神经医学杂志

2024年第8期

浏览历史

内容加载中请稍等...

可解释的机器学习模型预测缺血性脑卒中患者预后研究

参考文献2

二级参考文献29

共引文献323

相关作者

相关机构

相关主题

浏览历史