目的利用自适应合成抽样(adaptive synthetic sampling,ADASYN)与类别逆比例加权法处理类别不平衡数据,结合分类器构建模型对阿尔茨海默病(alzheimer′s disease,AD)患者疾病进程进行分类预测。方法数据源自阿尔茨海默病神经影像学计划(...目的利用自适应合成抽样(adaptive synthetic sampling,ADASYN)与类别逆比例加权法处理类别不平衡数据,结合分类器构建模型对阿尔茨海默病(alzheimer′s disease,AD)患者疾病进程进行分类预测。方法数据源自阿尔茨海默病神经影像学计划(Alzheimer′s disease neuroimaging initiative,ADNI),经随机森林填补缺失值,弹性网络筛选特征子集后,利用ADASYN与类别逆比例加权法处理类别不平衡数据。分别结合随机森林(random forest,RF)、支持向量机(support vector machine,SVM)构建四种模型:ADASYN-RF、ADASYN-SVM、加权随机森林(weighted random forest,WRF)、加权支持向量机(weighted support vector machine,WSVM),与RF、SVM比较分类性能。模型评价指标为宏观平均精确率(macro-average of precision,macro-P)、宏观平均召回率(macro-average of recall,macro-R)、宏观平均F1值(macro-average of F1-score,macro-F1)、准确率(accuracy,ACC)、Kappa值和AUC(area under the ROC curve)。结果ADASYN-RF的分类性能最优(Kappa值为0.938,AUC为0.980),ADASYN-SVM次之。利用ADASYN-RF预测得到的重要分类特征分别为CDRSB、LDELTOTAL、MMSE,在临床上均可得到证实。结论ADASYN与类别逆比例加权法都能辅助提升分类器性能,但ADASYN算法更优。展开更多
数据流分类是数据流挖掘领域一项重要研究任务,目标是从不断变化的海量数据中捕获变化的类结构.目前,几乎没有框架可以同时处理数据流中常见的多类非平衡、概念漂移、异常点和标记样本成本高昂问题.基于此,提出一种非平衡数据流在线主...数据流分类是数据流挖掘领域一项重要研究任务,目标是从不断变化的海量数据中捕获变化的类结构.目前,几乎没有框架可以同时处理数据流中常见的多类非平衡、概念漂移、异常点和标记样本成本高昂问题.基于此,提出一种非平衡数据流在线主动学习方法(Online active learning method for imbalanced data stream,OALM-IDS).AdaBoost是一种将多个弱分类器经过迭代生成强分类器的集成分类方法,AdaBoost.M2引入了弱分类器的置信度,此类方法常用于静态数据.定义了基于非平衡比率和自适应遗忘因子的训练样本重要性度量,从而使AdaBoost.M2方法适用于非平衡数据流,提升了非平衡数据流集成分类器的性能.提出了边际阈值矩阵的自适应调整方法,优化了标签请求策略.将概念漂移程度融入模型构建过程中,定义了基于概念漂移指数的自适应遗忘因子,实现了漂移后的模型重构.在6个人工数据流和4个真实数据流上的对比实验表明,提出的非平衡数据流在线主动学习方法的分类性能优于其他5种非平衡数据流学习方法.展开更多
文摘目的利用自适应合成抽样(adaptive synthetic sampling,ADASYN)与类别逆比例加权法处理类别不平衡数据,结合分类器构建模型对阿尔茨海默病(alzheimer′s disease,AD)患者疾病进程进行分类预测。方法数据源自阿尔茨海默病神经影像学计划(Alzheimer′s disease neuroimaging initiative,ADNI),经随机森林填补缺失值,弹性网络筛选特征子集后,利用ADASYN与类别逆比例加权法处理类别不平衡数据。分别结合随机森林(random forest,RF)、支持向量机(support vector machine,SVM)构建四种模型:ADASYN-RF、ADASYN-SVM、加权随机森林(weighted random forest,WRF)、加权支持向量机(weighted support vector machine,WSVM),与RF、SVM比较分类性能。模型评价指标为宏观平均精确率(macro-average of precision,macro-P)、宏观平均召回率(macro-average of recall,macro-R)、宏观平均F1值(macro-average of F1-score,macro-F1)、准确率(accuracy,ACC)、Kappa值和AUC(area under the ROC curve)。结果ADASYN-RF的分类性能最优(Kappa值为0.938,AUC为0.980),ADASYN-SVM次之。利用ADASYN-RF预测得到的重要分类特征分别为CDRSB、LDELTOTAL、MMSE,在临床上均可得到证实。结论ADASYN与类别逆比例加权法都能辅助提升分类器性能,但ADASYN算法更优。
文摘数据流分类是数据流挖掘领域一项重要研究任务,目标是从不断变化的海量数据中捕获变化的类结构.目前,几乎没有框架可以同时处理数据流中常见的多类非平衡、概念漂移、异常点和标记样本成本高昂问题.基于此,提出一种非平衡数据流在线主动学习方法(Online active learning method for imbalanced data stream,OALM-IDS).AdaBoost是一种将多个弱分类器经过迭代生成强分类器的集成分类方法,AdaBoost.M2引入了弱分类器的置信度,此类方法常用于静态数据.定义了基于非平衡比率和自适应遗忘因子的训练样本重要性度量,从而使AdaBoost.M2方法适用于非平衡数据流,提升了非平衡数据流集成分类器的性能.提出了边际阈值矩阵的自适应调整方法,优化了标签请求策略.将概念漂移程度融入模型构建过程中,定义了基于概念漂移指数的自适应遗忘因子,实现了漂移后的模型重构.在6个人工数据流和4个真实数据流上的对比实验表明,提出的非平衡数据流在线主动学习方法的分类性能优于其他5种非平衡数据流学习方法.