期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于EasyEnsemble和XGBoost的冠心病预测模型研究
1
作者 彭昊 申艳光 李焰 《计算机时代》 2023年第12期64-67,共4页
针对医疗样本不平衡的问题,使用集成采样EasyEnsemble算法和XGBoost算法结合,搭建冠心病预测模型,来提高患病样本识别准确率。选用公开弗雷明翰冠心病数据集,对数据预处理后,先采用EasyEnsemble算法平衡数据集,后采用极端梯度提升算法XG... 针对医疗样本不平衡的问题,使用集成采样EasyEnsemble算法和XGBoost算法结合,搭建冠心病预测模型,来提高患病样本识别准确率。选用公开弗雷明翰冠心病数据集,对数据预处理后,先采用EasyEnsemble算法平衡数据集,后采用极端梯度提升算法XGBoost作为基分类器进行训练,调整各项实验参数,并采用准确率、召回率、ROC曲线下面积(AUC)等指标评价模型。实验结果表明,相较于XGBoost、过采样SMOTE+XGBoost、欠采样TomekLinks+XGBoost三种方法,EasyEnsemble+XGBoost模型极大地提高了召回率。 展开更多
关键词 冠心病 疾病预测 XGBoost SMOTE easyensemble
下载PDF
EasyEnsemble算法在金融风控不均衡数据集建模中的应用 被引量:2
2
作者 张青周 高龙 +1 位作者 胡颖迪 申晓雪 《金融科技时代》 2023年第1期41-46,共6页
在金融风控领域,不均衡数据集建模是一个常见的问题。文章提出将EasyEnsemble算法应用于金融风控不均衡数据集建模中,以弥补一般欠采样可能损失部分重要分类信息的缺陷。文章所记录的实验是基于Kaggle公开的信用卡客户违约数据集以及真... 在金融风控领域,不均衡数据集建模是一个常见的问题。文章提出将EasyEnsemble算法应用于金融风控不均衡数据集建模中,以弥补一般欠采样可能损失部分重要分类信息的缺陷。文章所记录的实验是基于Kaggle公开的信用卡客户违约数据集以及真实的金融风控业务场景进行的,实验结果表明,在金融风控不均衡数据集中,相较于XGBoost算法和SMOTE过采样后XGBoost算法,XGBoost-EasyEnsemble算法可以显著提升模型的召回率。 展开更多
关键词 金融风控 不均衡数据集 easyensemble XGBoost 召回率
下载PDF
基于EasyEnsemble的化工过程故障诊断性能改进 被引量:10
3
作者 夏丽莎 杨玉英 方华京 《控制理论与应用》 EI CAS CSCD 北大核心 2017年第1期49-53,共5页
化工过程故障诊断中样本数据分布不均衡现象普遍存在.在使用不均衡样本作为训练集建立各类故障诊断分类器时,易出现分类器的识别率偏置于多数类样本的结果,由此产生虽正常状态易识别,但更受关注的故障状态却难以被诊断的现象.针对该问题... 化工过程故障诊断中样本数据分布不均衡现象普遍存在.在使用不均衡样本作为训练集建立各类故障诊断分类器时,易出现分类器的识别率偏置于多数类样本的结果,由此产生虽正常状态易识别,但更受关注的故障状态却难以被诊断的现象.针对该问题,本文提出一种基于Easy Ensemble思想的主元分析–支持向量机(Easy Ensemble based principle component analysis–support vector machine,EEPS)故障诊断算法,通过欠采样方法抽取多数类样本子集组建多个新的均衡数据样本集,使用主元分析(principle component analysis,PCA)进行特征提取并使用支持向量机(support vector machine,SVM)算法进行训练,得到多个基于SVM的故障诊断分类器,然后使用Adaboost算法集成最终的分类,从而提高故障诊断准确性.所提方法被用于TE(Tenessee Eastman)化工过程,实验结果表明,EEPS算法能够有效提高分类器在不均衡数据集上的诊断性能和预报能力. 展开更多
关键词 化工过程 数据不均衡 easyensemble 故障诊断
下载PDF
基于EasyEnsemble和C5.0决策树算法的患者非医嘱离院预测研究 被引量:5
4
作者 李杰 张睿 +1 位作者 芮晨 王欣然 《中国卫生统计》 CSCD 北大核心 2018年第4期593-595,共3页
目的在C5.0决策树算法的基础上,结合处理不平衡样本集的Easy Ensemble思想,建立患者非医嘱离院预测模型,有效识别非医嘱离院倾向患者。方法基于Easy Ensemble思想,通过Bootstrap采样方法抽取多数类样本子集组建多个新的均衡数据样本集,... 目的在C5.0决策树算法的基础上,结合处理不平衡样本集的Easy Ensemble思想,建立患者非医嘱离院预测模型,有效识别非医嘱离院倾向患者。方法基于Easy Ensemble思想,通过Bootstrap采样方法抽取多数类样本子集组建多个新的均衡数据样本集,运用C5.0决策树算法并结合交叉验证方法与代价矩阵,训练多个基分类器,最后经Bagging算法集成,得到最终预测模型。结果在10组测试集下平均总分类准确率、平均平衡准确率、少数类别样本平均召回率和平均AUC值分别达到74.27%、82.34%、91.70%、86.21%。结论基于Easy Ensemble和C5.0决策树算法的患者非医嘱离院预测模型有较好较稳定的识别性能,为医院提升医疗质量和服务水平,降低非医嘱离院率提供了有力依据。 展开更多
关键词 非医嘱离院 easyensemble C5.0 数据挖掘
下载PDF
改进EasyEnsemble的软投票策略下的用户购买预测方法 被引量:1
5
作者 杨进 张晨 《计算机与现代化》 2022年第7期47-53,共7页
随着互联网发展,网上购物已经成为人们越来越多的选择。为了更好实现帮助顾客推荐商品的目的,对原有数据进行特征提取,再用互信息的方法对数据进行特征选择;用改进的EasyEnsemble算法处理类别不平衡的问题,利用集成策略弥补欠采样的缺陷... 随着互联网发展,网上购物已经成为人们越来越多的选择。为了更好实现帮助顾客推荐商品的目的,对原有数据进行特征提取,再用互信息的方法对数据进行特征选择;用改进的EasyEnsemble算法处理类别不平衡的问题,利用集成策略弥补欠采样的缺陷,使样本数据得到充分的利用并且降低了正负样本差造成的影响;最后选择使用软投票的方法将XGBoost和随机森林结合为一个终分类器做预测,并与单一的算法相比,从而得到更好的结果。基于阿里巴巴天池大赛所提供的数据,以查准率P、召回率R和F1值为评价指标,分别与当前热门的机器学习算法进行对比,验证了本文方法的有效性。 展开更多
关键词 互信息 类别不平衡 easyensemble XGBoost
下载PDF
基于主观倾向值和EasyEnsemble算法的虚假评论识别方法 被引量:1
6
作者 陶朝杰 杨进 《计算机应用研究》 CSCD 北大核心 2021年第5期1403-1408,共6页
为了有效识别在线虚假评论,提出一种基于XGBoost-EasyEnsemble算法的虚假评论识别方法。首先,根据虚假评论的特点和提出的主观倾向值计算方法,建立多维特征模型;其次,针对评论数据中的类别不平衡问题,EasyEnsemble算法借助集成策略弥补... 为了有效识别在线虚假评论,提出一种基于XGBoost-EasyEnsemble算法的虚假评论识别方法。首先,根据虚假评论的特点和提出的主观倾向值计算方法,建立多维特征模型;其次,针对评论数据中的类别不平衡问题,EasyEnsemble算法借助集成策略弥补欠采样的缺陷,充分利用样本信息;最后,选择“好而不同”的XGBoost模型作为基分类器训练最终分类器。基于Yelp网站上的评论数据,以AUC作为评价指标,与支持向量机、GBDT、神经网络等热门机器学习算法进行对比,验证了该方法的有效性。 展开更多
关键词 虚假评论 类别不平衡 主观倾向值 easyensemble XGBoost
下载PDF
聚合支持向量机分类器的行人检测方法 被引量:4
7
作者 甘玲 杨梦 《计算机工程与应用》 CSCD 北大核心 2019年第7期194-198,共5页
针对支持向量机分类器的行人检测方法采用欠采样方法,存在正负行人比例不平衡造成的准确率不高问题,结合欠采样和EasyEnsemble方法,提出一种聚合支持向量机(Ensemble SVM)分类器的行人检测方法。随机选择负样本作为初始训练样本,并将其... 针对支持向量机分类器的行人检测方法采用欠采样方法,存在正负行人比例不平衡造成的准确率不高问题,结合欠采样和EasyEnsemble方法,提出一种聚合支持向量机(Ensemble SVM)分类器的行人检测方法。随机选择负样本作为初始训练样本,并将其划分为与正样本集均衡的多个子负样本集,构建平衡子训练集,线性组合成EasyEnsemble SVM分类器;利用该分类器对负样本进行分类判断,将误判样本作为难例样本,重新划分构建新的平衡子训练集,训练子分类器,结合EasyEnsemble SVM分类器,得到Ensemble SVM分类器行人检测方法。在INRIA行人数据集上的实验表明,该方法在检测速度和检测率上都优于经典的SVM行人检测算法。 展开更多
关键词 行人检测 支持向量机(SVM) easyensemble SVM分类器 聚合支持向量机(Ensemble SVM)
下载PDF
一种面向非均衡样本的企业金融风险预测方法 被引量:1
8
作者 仇实 高影繁 +2 位作者 姚长青 刘志辉 李佳星 《中国科技资源导刊》 2021年第5期11-17,共7页
在企业所面临的众多风险中,企业金融风险表现尤为突出,而在大数据环境下,严重的数据不均衡成为横亘在企业金融风险分析面前的一道鸿沟。本文针对企业竞争情报分析中的样本不均衡问题,以金融企业信贷风险预测为切入点,提出一种面向非平... 在企业所面临的众多风险中,企业金融风险表现尤为突出,而在大数据环境下,严重的数据不均衡成为横亘在企业金融风险分析面前的一道鸿沟。本文针对企业竞争情报分析中的样本不均衡问题,以金融企业信贷风险预测为切入点,提出一种面向非平衡样本的企业风险识别方法。该方法采用人工智能分析领域中的特征选择、非均衡样本平衡处理和集成学习等智能分析手段,为大数据环境下企业竞争情报中的企业风险识别问题提供解决思路。 展开更多
关键词 非平衡样本 金融企业 信贷风险 Catboost easyensemble
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部