目的建立预测重症慢性阻塞性肺疾病(简称慢阻肺)患者死亡风险的机器学习模型,探讨与慢阻肺患者死亡风险相关的因素,并加以解释,解决机器学习模型的“黑箱”问题。方法选取美国多中心急诊重症监护病(emergency intensive care unit,eICU...目的建立预测重症慢性阻塞性肺疾病(简称慢阻肺)患者死亡风险的机器学习模型,探讨与慢阻肺患者死亡风险相关的因素,并加以解释,解决机器学习模型的“黑箱”问题。方法选取美国多中心急诊重症监护病(emergency intensive care unit,eICU)数据库中的8088例重症慢阻肺患者为研究对象,提取每次入住重症监护病房的前24 h内的数据并随机分组,70%用于模型训练,30%用于模型验证。采用LASSO回归进行预测变量选择,避免过拟合。采用5种机器学习模型对患者的住院病死率进行预测。通过曲线下面积(area under curve,AUC)比较5种模型和APACHEⅣa评分的预测性能,并采用SHAP(SHapley Additive exPlanations)方法解释随机森林(random forest,RF)模型的预测结果。结果RF模型在5种机器学习模型和APACHEⅣa评分系统中表现出最佳的性能,AUC达到0.830(95%置信区间0.806~0.855)。通过SHAP方法检测最重要的10种预测变量,其中无创收缩压的最小值被认为是最重要的预测变量。结论通过机器学习识别危险因素,并使用SHAP方法解释预测结果,可早期预测患者的死亡风险,有助于临床医生制定准确的治疗计划,合理分配医疗资源。展开更多
文摘目的建立预测重症慢性阻塞性肺疾病(简称慢阻肺)患者死亡风险的机器学习模型,探讨与慢阻肺患者死亡风险相关的因素,并加以解释,解决机器学习模型的“黑箱”问题。方法选取美国多中心急诊重症监护病(emergency intensive care unit,eICU)数据库中的8088例重症慢阻肺患者为研究对象,提取每次入住重症监护病房的前24 h内的数据并随机分组,70%用于模型训练,30%用于模型验证。采用LASSO回归进行预测变量选择,避免过拟合。采用5种机器学习模型对患者的住院病死率进行预测。通过曲线下面积(area under curve,AUC)比较5种模型和APACHEⅣa评分的预测性能,并采用SHAP(SHapley Additive exPlanations)方法解释随机森林(random forest,RF)模型的预测结果。结果RF模型在5种机器学习模型和APACHEⅣa评分系统中表现出最佳的性能,AUC达到0.830(95%置信区间0.806~0.855)。通过SHAP方法检测最重要的10种预测变量,其中无创收缩压的最小值被认为是最重要的预测变量。结论通过机器学习识别危险因素,并使用SHAP方法解释预测结果,可早期预测患者的死亡风险,有助于临床医生制定准确的治疗计划,合理分配医疗资源。