目的:应用机器学习算法随机森林建立吉林省老年流动人口肺结核发病风险模型并分析发病风险因素,为制定结核病重点人群防治策略提供参考。方法:采用1∶1匹配设计的病例对照研究,选择2021年吉林省登记的年龄≥60岁的流动人口肺结核患者(28...目的:应用机器学习算法随机森林建立吉林省老年流动人口肺结核发病风险模型并分析发病风险因素,为制定结核病重点人群防治策略提供参考。方法:采用1∶1匹配设计的病例对照研究,选择2021年吉林省登记的年龄≥60岁的流动人口肺结核患者(281例)为病例组,281例性别匹配的非本地户籍健康人群为对照组,随机抽取70%(393例/名)和30%(169例/名)的数据作为训练集和测试集,使用R Software Version 4.2.1软件建立随机森林算法的发病风险模型。结果:发病风险因素前5位分别为有结核病患者接触史、工作经常变动、个人防护差、吸烟、较少摄入肉蛋奶,其基尼平均减少值分别为44.344、29.007、21.859、19.703、15.242;随机森林模型最优树数量为281,袋外数据误差率为6.44%;ROC曲线下面积为0.967;使用Caret包10折交叉验证随机森林算法,正确率为93.5%,Kappa值为0.870。结论:有结核病患者接触史的老年流动人口被感染的风险最大,常态化的结核病防控要重视隔离具有传染性的肺结核患者,加强个人防护和营养摄入。展开更多
文摘目的:应用机器学习算法随机森林建立吉林省老年流动人口肺结核发病风险模型并分析发病风险因素,为制定结核病重点人群防治策略提供参考。方法:采用1∶1匹配设计的病例对照研究,选择2021年吉林省登记的年龄≥60岁的流动人口肺结核患者(281例)为病例组,281例性别匹配的非本地户籍健康人群为对照组,随机抽取70%(393例/名)和30%(169例/名)的数据作为训练集和测试集,使用R Software Version 4.2.1软件建立随机森林算法的发病风险模型。结果:发病风险因素前5位分别为有结核病患者接触史、工作经常变动、个人防护差、吸烟、较少摄入肉蛋奶,其基尼平均减少值分别为44.344、29.007、21.859、19.703、15.242;随机森林模型最优树数量为281,袋外数据误差率为6.44%;ROC曲线下面积为0.967;使用Caret包10折交叉验证随机森林算法,正确率为93.5%,Kappa值为0.870。结论:有结核病患者接触史的老年流动人口被感染的风险最大,常态化的结核病防控要重视隔离具有传染性的肺结核患者,加强个人防护和营养摄入。