目的对山西省某医院2011-2017年确诊为弥漫大B细胞淋巴瘤(diffuse large B-cell lymphoma, DLBCL)患者进行疾病进展阶段多分类预测,为患者是否需要及时转为二线挽救治疗或放疗等治疗手段的选择提供参考。方法用层次分类法将三分类的疾...目的对山西省某医院2011-2017年确诊为弥漫大B细胞淋巴瘤(diffuse large B-cell lymphoma, DLBCL)患者进行疾病进展阶段多分类预测,为患者是否需要及时转为二线挽救治疗或放疗等治疗手段的选择提供参考。方法用层次分类法将三分类的疾病进展阶段进行两层二分类,分别进行变量筛选后,用SMOTE过采样处理数据中的类别不平衡问题,然后使用SVM、BP神经网络、随机森林等单分类器模型与AdaBoost同型集成和Stacking异型集成方法分别构建两层疾病进展阶段的二分类预测模型,最后分别选择两层中分类性能最优的模型并结合在一起。结果使用经SMOTE平衡后的数据构建的两层分类模型中的SVMboost集成模型,准确率分别为0.951和0.972,模型性能均为最优,因此两层二分类的基分类器均选择SVMboost。结论本研究构建弥漫大B细胞淋巴瘤患者疾病进展阶段的层次多分类预测模型,其中两层分类模型中的SVMboost集成模型性能均为最优,将两层二分类的基分类器结合后,准确率为0.924,高于作为对比的直接多分类模型,为临床工作者的诊断与治疗方案选择提供一定参考。展开更多
目的利用自适应合成抽样(adaptive synthetic sampling,ADASYN)与类别逆比例加权法处理类别不平衡数据,结合分类器构建模型对阿尔茨海默病(alzheimer′s disease,AD)患者疾病进程进行分类预测。方法数据源自阿尔茨海默病神经影像学计划(...目的利用自适应合成抽样(adaptive synthetic sampling,ADASYN)与类别逆比例加权法处理类别不平衡数据,结合分类器构建模型对阿尔茨海默病(alzheimer′s disease,AD)患者疾病进程进行分类预测。方法数据源自阿尔茨海默病神经影像学计划(Alzheimer′s disease neuroimaging initiative,ADNI),经随机森林填补缺失值,弹性网络筛选特征子集后,利用ADASYN与类别逆比例加权法处理类别不平衡数据。分别结合随机森林(random forest,RF)、支持向量机(support vector machine,SVM)构建四种模型:ADASYN-RF、ADASYN-SVM、加权随机森林(weighted random forest,WRF)、加权支持向量机(weighted support vector machine,WSVM),与RF、SVM比较分类性能。模型评价指标为宏观平均精确率(macro-average of precision,macro-P)、宏观平均召回率(macro-average of recall,macro-R)、宏观平均F1值(macro-average of F1-score,macro-F1)、准确率(accuracy,ACC)、Kappa值和AUC(area under the ROC curve)。结果ADASYN-RF的分类性能最优(Kappa值为0.938,AUC为0.980),ADASYN-SVM次之。利用ADASYN-RF预测得到的重要分类特征分别为CDRSB、LDELTOTAL、MMSE,在临床上均可得到证实。结论ADASYN与类别逆比例加权法都能辅助提升分类器性能,但ADASYN算法更优。展开更多
目的 采用结合环论的粒子群优化算法(hybridization of ring theory-based evolutionary algorithm and particle swarm optimization, RTPSO)对数据进行均衡化处理,以构建高性能冠心病合并慢性心衰预后模型。方法 分别用SMOTE算法、RT...目的 采用结合环论的粒子群优化算法(hybridization of ring theory-based evolutionary algorithm and particle swarm optimization, RTPSO)对数据进行均衡化处理,以构建高性能冠心病合并慢性心衰预后模型。方法 分别用SMOTE算法、RTPSO算法对数据进行均衡化处理,在均衡化数据集上构建logistic回归、随机森林、支持向量机模型。结果 本研究共纳入2229例冠心病合并慢性心衰患者,依据筛选出的BMI、射血分数、N端前脑钠肽等22个变量构建模型。用灵敏度、特异度、准确率、F-measure和AUC值评价模型性能,其中RF、SVM、logistic回归、RF-RTPSO、SVM-RTPSO、Logistic-RTPSO灵敏度的中位数分别为0.0172、0.0773、0.0776、0.7568、0.7640、0.7838;F-measure的中位数分别为0.0338、0.1143、0.1283、0.3412、0.3505、0.4545;AUC的中位数分别为0.5086、0.5264、0.5313、0.8016、0.7785、0.7985。结论 RTPSO算法可以从多数类样本中选择有代表性的少数样本,从而达到数据均衡化,使分类模型具备更高的预测性能,指导临床医生发现高危患者,尽早预防不良事件的发生。展开更多
文摘目的对山西省某医院2011-2017年确诊为弥漫大B细胞淋巴瘤(diffuse large B-cell lymphoma, DLBCL)患者进行疾病进展阶段多分类预测,为患者是否需要及时转为二线挽救治疗或放疗等治疗手段的选择提供参考。方法用层次分类法将三分类的疾病进展阶段进行两层二分类,分别进行变量筛选后,用SMOTE过采样处理数据中的类别不平衡问题,然后使用SVM、BP神经网络、随机森林等单分类器模型与AdaBoost同型集成和Stacking异型集成方法分别构建两层疾病进展阶段的二分类预测模型,最后分别选择两层中分类性能最优的模型并结合在一起。结果使用经SMOTE平衡后的数据构建的两层分类模型中的SVMboost集成模型,准确率分别为0.951和0.972,模型性能均为最优,因此两层二分类的基分类器均选择SVMboost。结论本研究构建弥漫大B细胞淋巴瘤患者疾病进展阶段的层次多分类预测模型,其中两层分类模型中的SVMboost集成模型性能均为最优,将两层二分类的基分类器结合后,准确率为0.924,高于作为对比的直接多分类模型,为临床工作者的诊断与治疗方案选择提供一定参考。
文摘目的利用自适应合成抽样(adaptive synthetic sampling,ADASYN)与类别逆比例加权法处理类别不平衡数据,结合分类器构建模型对阿尔茨海默病(alzheimer′s disease,AD)患者疾病进程进行分类预测。方法数据源自阿尔茨海默病神经影像学计划(Alzheimer′s disease neuroimaging initiative,ADNI),经随机森林填补缺失值,弹性网络筛选特征子集后,利用ADASYN与类别逆比例加权法处理类别不平衡数据。分别结合随机森林(random forest,RF)、支持向量机(support vector machine,SVM)构建四种模型:ADASYN-RF、ADASYN-SVM、加权随机森林(weighted random forest,WRF)、加权支持向量机(weighted support vector machine,WSVM),与RF、SVM比较分类性能。模型评价指标为宏观平均精确率(macro-average of precision,macro-P)、宏观平均召回率(macro-average of recall,macro-R)、宏观平均F1值(macro-average of F1-score,macro-F1)、准确率(accuracy,ACC)、Kappa值和AUC(area under the ROC curve)。结果ADASYN-RF的分类性能最优(Kappa值为0.938,AUC为0.980),ADASYN-SVM次之。利用ADASYN-RF预测得到的重要分类特征分别为CDRSB、LDELTOTAL、MMSE,在临床上均可得到证实。结论ADASYN与类别逆比例加权法都能辅助提升分类器性能,但ADASYN算法更优。
文摘目的 采用结合环论的粒子群优化算法(hybridization of ring theory-based evolutionary algorithm and particle swarm optimization, RTPSO)对数据进行均衡化处理,以构建高性能冠心病合并慢性心衰预后模型。方法 分别用SMOTE算法、RTPSO算法对数据进行均衡化处理,在均衡化数据集上构建logistic回归、随机森林、支持向量机模型。结果 本研究共纳入2229例冠心病合并慢性心衰患者,依据筛选出的BMI、射血分数、N端前脑钠肽等22个变量构建模型。用灵敏度、特异度、准确率、F-measure和AUC值评价模型性能,其中RF、SVM、logistic回归、RF-RTPSO、SVM-RTPSO、Logistic-RTPSO灵敏度的中位数分别为0.0172、0.0773、0.0776、0.7568、0.7640、0.7838;F-measure的中位数分别为0.0338、0.1143、0.1283、0.3412、0.3505、0.4545;AUC的中位数分别为0.5086、0.5264、0.5313、0.8016、0.7785、0.7985。结论 RTPSO算法可以从多数类样本中选择有代表性的少数样本,从而达到数据均衡化,使分类模型具备更高的预测性能,指导临床医生发现高危患者,尽早预防不良事件的发生。