目的基于电子病历系统结构化信息创建的临床数据库,通过机器学习算法进行数据预处理和特征选择,构建预测心力衰竭患者住院期间死亡和6个月内死亡预测模型,从而辅助识别高危患者,为治疗干预提供指导。方法以PhysioNet网站上公开的一个数...目的基于电子病历系统结构化信息创建的临床数据库,通过机器学习算法进行数据预处理和特征选择,构建预测心力衰竭患者住院期间死亡和6个月内死亡预测模型,从而辅助识别高危患者,为治疗干预提供指导。方法以PhysioNet网站上公开的一个数据集为研究数据来源,该数据集纳入了2016年12月至2019年6月在四川省自贡市第四人民医院住院的心力衰竭患者临床信息,利用Python进行数据预处理、特征选择,并构建Logistic回归及随机森林预后预测模型,以增大ROC曲线下面积(area under curve,AUC)为目标优化模型,并在测试集中以AUC、准确率、精确度、召回率和F1分数综合验证模型预测效果。结果通过数据预处理共获得146项特征用于住院期间心力衰竭死亡预测建模,155项特征用于6个月内心力衰竭死亡预测建模,基于随机森林的建模方法用于住院期间死亡效果最佳,AUC为0.8931;在6个月内死亡预测上,结合LASSO和RFE进行特征选择,筛选出包括出院去向(健康护理机构、家庭或未知)、入院病房(全科)、出院科室(心血管科)、Killip分级(Ⅰ、Ⅱ和Ⅲ级)、心肌梗死情况以及充血性心力衰竭情况共10个特征进行Logistic回归建模,AUC达到0.8336,与基于全部特征进行随机森林特征效果(AUC=0.8460)相当。结论本研究探索出一套针对电子病历系统结构化临床数据进行数据预处理、特征工程、机器学习算法建模并验证模型的方法,利用真实世界数据构建兼顾预测准确性和高危个体检出率的心衰预后预测模型。展开更多
文摘目的基于电子病历系统结构化信息创建的临床数据库,通过机器学习算法进行数据预处理和特征选择,构建预测心力衰竭患者住院期间死亡和6个月内死亡预测模型,从而辅助识别高危患者,为治疗干预提供指导。方法以PhysioNet网站上公开的一个数据集为研究数据来源,该数据集纳入了2016年12月至2019年6月在四川省自贡市第四人民医院住院的心力衰竭患者临床信息,利用Python进行数据预处理、特征选择,并构建Logistic回归及随机森林预后预测模型,以增大ROC曲线下面积(area under curve,AUC)为目标优化模型,并在测试集中以AUC、准确率、精确度、召回率和F1分数综合验证模型预测效果。结果通过数据预处理共获得146项特征用于住院期间心力衰竭死亡预测建模,155项特征用于6个月内心力衰竭死亡预测建模,基于随机森林的建模方法用于住院期间死亡效果最佳,AUC为0.8931;在6个月内死亡预测上,结合LASSO和RFE进行特征选择,筛选出包括出院去向(健康护理机构、家庭或未知)、入院病房(全科)、出院科室(心血管科)、Killip分级(Ⅰ、Ⅱ和Ⅲ级)、心肌梗死情况以及充血性心力衰竭情况共10个特征进行Logistic回归建模,AUC达到0.8336,与基于全部特征进行随机森林特征效果(AUC=0.8460)相当。结论本研究探索出一套针对电子病历系统结构化临床数据进行数据预处理、特征工程、机器学习算法建模并验证模型的方法,利用真实世界数据构建兼顾预测准确性和高危个体检出率的心衰预后预测模型。