摘要
目的 利用机器学习模型预测青年高血压患者并发焦虑情绪的风险,评价机器学习模型对其的预测价值。方法 回顾性分析常德市第一中医医院2021年12月至2023年6月期间收治的679名青年高血压患者的临床资料,根据患者是否存在焦虑状态,分为无焦虑状态组(464例)、有焦虑状态组(215例),统计两组患者基线资料与实验室指标,进行单因素和多因素Logistic回归分析筛选出青年高血压患者并发焦虑状态的影响因素;另将所有患者依据7∶3比例随机分为训练集(475例)和测试集(204例),在训练集中运用机器学习算法构建支持向量机(SVM)、K邻近(KNN)、分类决策树(Decision Tree)、随机森林(RF)、极端随机树(Extra Trees)、极限梯度提升(XGBoost)、机器学习算法(LightGBM)预测模型,使用测试集对预测模型进行内部验证;绘制受试者工作特征(ROC)曲线评估各模型对青年高血压患者并发焦虑状态的预测效能。结果 679例青年高血压患者中,215例患者(31.66%)存在焦虑状态。单因素分析结果显示,与无焦虑状态组比,有焦虑状态组患者年龄较大,吸烟、饮酒、有睡眠障碍、有高血压病家族史、有冠心病病史、有糖尿病病史、有高血脂病史、有脑梗死病史、有脑出血病史患者占比,汉密尔顿焦虑量表(HAMA)评分,糖化血红蛋白、高密度脂蛋白、三酰甘油、天冬氨酸氨基转移酶、丙氨酸氨基转移酶、肌酐、同型半胱氨酸水平,左心房内径均较高;淋巴细胞计数、血红蛋白、左心室射血分数(LVEF)水平均较低;高血压病程较长(均P<0.05或P<0.001)。多因素Logistic回归分析结果显示,年龄大、有吸烟史、有饮酒史、有睡眠障碍、高血压病程长、有高血压病家族史、有糖尿病病史、有高血脂病史、有脑梗死病史、有脑出血病史、淋巴细胞计数下降、糖化血红蛋白升高、三酰甘油升高、天冬氨酸氨基转移酶升高、丙氨酸氨基转移酶升高、肌酐升高、左房内径增加及LVEF下降均是青年高血压焦虑状态的危险因素(均P<0.05或P<0.001)。结合多因素Logistic回归分析结果,依据Lassso回归进一步筛选最佳变量,按序排列的最佳变量包括三酰甘油、年龄、左房内径、睡眠障碍、肌酐、吸烟、淋巴细胞计数及LVEF。通过上述筛选出的8个最佳变量,构建SVM、KNN、Decision Tree、RF、Extra Trees、XGBoost、LightGBM预测模型,将构建的模型应用于测试集,绘制ROC曲线并计算ROC曲线下面积(AUC)。其中,综合性能最佳的是Extra Trees模型,AUC值为0.996(0.991~1.000)。结论 高三酰甘油、年龄大、高左房内径、有睡眠障碍、高肌酐、有吸烟史、低淋巴细胞计数、低LVEF均为影响青年高血压伴焦虑状态发生的最佳危险因素变量,采取基于机器学习算法构建的青年高血压合并焦虑状态的SVM、KNN、Decision Tree、RF、Extra Trees、XGBoost及LightGBM预测模型中,Extra Trees模型的预测效果最好。因此,该模型可作为辅助诊断工具应用于青年高血压患者并发焦虑状态的筛查中,为青年高血压这一慢性病管理提供新的临床思路。
出处
《现代医学与健康研究电子杂志》
2024年第10期119-124,共6页
Modern Medicine and Health Research