期刊文献+
共找到37篇文章
< 1 2 >
每页显示 20 50 100
Bagging集成RW-RBF的水厂消毒预测模型
1
作者 唐宇 徐冰峰 +3 位作者 山丕斌 姜月月 伍籼融 施谨超 《能源工程》 2023年第1期66-71,共6页
采用RW(随机游走算法)优化RBF(径向基函数)神经网络后作为集成学习(Bagging)的弱学习器。选取清水池进水流量(Q)、滤后浊度(NTU)、滤后余氯(Cl-into)、出厂水余氯(Cl-out)、耗氧量作为输入因子,投药量作为输出因子,建立基于Bagging集成R... 采用RW(随机游走算法)优化RBF(径向基函数)神经网络后作为集成学习(Bagging)的弱学习器。选取清水池进水流量(Q)、滤后浊度(NTU)、滤后余氯(Cl-into)、出厂水余氯(Cl-out)、耗氧量作为输入因子,投药量作为输出因子,建立基于Bagging集成RW-RBF模型对水厂消毒投加进行预测。相较于RBF神经网络和RW-RBF模型,Bagging集成RW-RBF模型平均相对误差降低了90.3%、73.7%;均方根误差分别降低了83.7%、40.6%,说明该模型具有强大的非线性拟合能力,泛化能力强,稳定性高,对供水行业滤后消毒药剂投加量预测有指导作用。 展开更多
关键词 RBF神经网络 bagging集成算法 水厂 消毒 预测模拟
下载PDF
基于Bagging集成学习的电力系统暂态稳定在线评估 被引量:18
2
作者 赵冬梅 谢家康 +3 位作者 王闯 王浩翔 姜威 王怡 《电力系统保护与控制》 EI CSCD 北大核心 2022年第8期1-10,共10页
针对传统机器学习在处理暂态稳定评估时所表现出的稳定性差、精度低等问题以及离线训练的局限性,提出一种基于多模型融合Bagging集成学习方式的电力系统暂态稳定在线评估模型。首先,结合人工智能前沿理论研究,分析了暂态稳定评估中常用... 针对传统机器学习在处理暂态稳定评估时所表现出的稳定性差、精度低等问题以及离线训练的局限性,提出一种基于多模型融合Bagging集成学习方式的电力系统暂态稳定在线评估模型。首先,结合人工智能前沿理论研究,分析了暂态稳定评估中常用的7种机器学习算法的原理及实现方式,通过Bagging方法进行集成,充分发挥各个模型的优势。其次,给出Bagging集成的数学实现方法并进行了仿真实验。当原系统拓扑结构发生改变时,采用Boosting算法和迁移成分分析,分别对原电网历史数据进行样本迁移和特征迁移,完成对所提模型的在线更新。通过采用IEEE10机39节点系统和IEEE16机68节点系统进行分析,结果表明所提方法比传统机器学习模型精度更高。当数据中掺杂噪声时能够保持稳定运行,在系统拓扑改变时能够通过迁移历史数据进行准确的暂态稳定评估。 展开更多
关键词 bagging集成学习 电力系统 机器学习 暂态稳定 迁移学习 在线更新
下载PDF
基于不平衡分类的Bagging集成污水处理故障诊断 被引量:5
3
作者 许玉格 赖春伶 罗飞 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第8期107-115,共9页
在污水处理过程故障会导致出水水质下降、运行费用增高甚至造成环境的二次污染,而污水处理故障诊断数据的典型不平衡特性,严重影响了故障诊断的效果,尤其会导致故障分类的正确率偏低.针对此问题,文中提出了一种基于加权极限学习机的改进... 在污水处理过程故障会导致出水水质下降、运行费用增高甚至造成环境的二次污染,而污水处理故障诊断数据的典型不平衡特性,严重影响了故障诊断的效果,尤其会导致故障分类的正确率偏低.针对此问题,文中提出了一种基于加权极限学习机的改进Bagging集成污水处理故障诊断建模方法;以加权极限学习机为基分类器,以Bagging集成框架建立集成分类器;定义可调整的过采样倍率公式,通过虚拟少数过采样算法(SMOTE)对少数类样本进行过采样,以保证基分类器间的多样性;以不平衡分类性能指标G-mean值为基础,定义新的基分类器输出权值更新公式,以提高故障类别识别率.仿真实验表明,该污水处理故障诊断模型的性能优于其他对比算法,可有效提高G-mean值和整体分类正确率,特别是提高了故障类别的识别正确率. 展开更多
关键词 不平衡分类 加权极限学习机 bagging集成算法 污水处理 故障诊断
下载PDF
一种基于特征集构建的Bagging集成方法及其在流量分类中的应用 被引量:1
4
作者 钱亚冠 关晓惠 +2 位作者 吴淑慧 云本胜 任东晓 《电信科学》 2018年第4期41-48,共8页
Bagging是一种经典的分类器集成方法,其有效性依赖于基分类器之间的差异度。通过遗传算法为每个基分类器构建独立的特征集,目的是获得基分类器之间更好的差异性。同时,根据不同基分类器的分类性能进行优化加权集成,获得更好的泛化能力... Bagging是一种经典的分类器集成方法,其有效性依赖于基分类器之间的差异度。通过遗传算法为每个基分类器构建独立的特征集,目的是获得基分类器之间更好的差异性。同时,根据不同基分类器的分类性能进行优化加权集成,获得更好的泛化能力。最后,采用Softmax回归作为基分类器,将改进的Bagging集成方法应用到互联网流量分类,实验结果表明,改进方法相比经典Bagging方法在分类准确率上有显著提高,与利用决策树集成的随机森林相比也有较好的性能提升。 展开更多
关键词 bagging集成 特征子集 遗传算法 流量分类
下载PDF
基于Bagging集成聚类的改进遗传算法在装配线平衡中的应用 被引量:3
5
作者 李爱平 赵亚西 《机械制造》 2018年第2期91-96,共6页
针对装配线平衡优化问题中传统遗传算法搜索深度不足的问题,提出一种基于Bagging集成聚类的改进遗传算法,用于平衡优化。通过Bagging对几个K均值算法基学习器进行集成学习,建立一种基于Bagging集成聚类算法的种群聚类分析方法,然后建立... 针对装配线平衡优化问题中传统遗传算法搜索深度不足的问题,提出一种基于Bagging集成聚类的改进遗传算法,用于平衡优化。通过Bagging对几个K均值算法基学习器进行集成学习,建立一种基于Bagging集成聚类算法的种群聚类分析方法,然后建立双目标装配线平衡优化模型,利用种群聚类分析方法来改进遗传算法的交叉环节,以提高搜索深度。在实例中验证了改进遗传算法在求解双目标装配线平衡问题中的有效性和搜索性能。 展开更多
关键词 bagging集成聚类 遗传算法 装配线 平衡
下载PDF
二维bagging集成支持向量机进行网络故障诊断
6
作者 王磊 孙世新 杨浩淼 《电子测量与仪器学报》 CSCD 2008年第1期10-14,共5页
由于网络故障信息通常表现出不确定、复杂的特点并且对故障特征的描述也多是非完备的,运用支持向量机进行故障诊断经常不能达到其最优性能。本文提出一种新颖的二维bagging集成支持向量机,显著提高了传统支持向量机进行网络故障诊断的... 由于网络故障信息通常表现出不确定、复杂的特点并且对故障特征的描述也多是非完备的,运用支持向量机进行故障诊断经常不能达到其最优性能。本文提出一种新颖的二维bagging集成支持向量机,显著提高了传统支持向量机进行网络故障诊断的精度。实验结果验证了该方法的准确性和有效性。 展开更多
关键词 支持向量机 二维bagging集成 网络故障诊断
下载PDF
基于Bagging集成CHAID决策树算法的神东矿区煤灰熔融温度预测 被引量:1
7
作者 张挺 李寒旭 +1 位作者 张晔 陈和荆 《广州化工》 CAS 2022年第14期179-183,188,共6页
为了预防神东煤在气化过程中结渣的问题,以部分神东矿区煤的灰成分为自变量,灰熔点软化温度ST和流动温度FT为因变量,建立了Bagging集成CHAID决策树算法的灰熔点预测模型。结果表明:针对本文数据集,CHAID决策树最大树深度设置为5,决策树... 为了预防神东煤在气化过程中结渣的问题,以部分神东矿区煤的灰成分为自变量,灰熔点软化温度ST和流动温度FT为因变量,建立了Bagging集成CHAID决策树算法的灰熔点预测模型。结果表明:针对本文数据集,CHAID决策树最大树深度设置为5,决策树个数设置为10的模型预测效果最好;模型对小样本的FT预测精度略高于ST预测精度。因此,基于Bagging集成CHAID决策树预测煤灰熔融温度模型对气化炉的安全稳定运行提供重要指导。 展开更多
关键词 神东矿区煤 bagging集成算法 CHAID决策树算法 灰熔融温度 灰成分
下载PDF
双层特征选择和CatBoost-Bagging集成的短期风电功率预测 被引量:3
8
作者 康文豪 徐天奇 +2 位作者 王阳光 邓小亮 李琰 《重庆理工大学学报(自然科学)》 CAS 北大核心 2022年第7期303-309,共7页
为了充分挖掘风电场数据和提高短期风电功率预测精度,提出了一种基于双层特征选择和装袋算法(bootstrap aggregating,Bagging)集成分类梯度提升算法(categorical boosting,CatBoost)的短期风电功率预测方法。首先,对风电场原始特征数据... 为了充分挖掘风电场数据和提高短期风电功率预测精度,提出了一种基于双层特征选择和装袋算法(bootstrap aggregating,Bagging)集成分类梯度提升算法(categorical boosting,CatBoost)的短期风电功率预测方法。首先,对风电场原始特征数据应用模拟退火特征选择进行特征寻优,得到第一层特征集。然后,在其基础上,第二层特征选择通过距离相关系数和最大信息系数分析风电功率强相关的特征,从而形成最终特征集。最后,建立CatBoost-Bagging集成模型进行风电功率短期预测,并使用新疆某风电场实测数据对算法有效性进行验证。结果表明,与传统单一机器学习模型及其Bagging集成模型相比,CatBoost-Bagging集成模型的预测精度和模型拟合效果更好。 展开更多
关键词 短期风电功率预测 双层特征选择 CatBoost算法 bagging集成学习
下载PDF
基于Bagging集成学习的蛋白质折叠识别
9
作者 杨欣华 顾海明 《青岛科技大学学报(自然科学版)》 CAS 2021年第6期101-110,共10页
提出了一种新的蛋白质折叠识别方法-BAG-fold模型。首先,通过伪位置特异性得分矩阵(pseudo position specific score matrix,PsePSSM)方法,二级结构(secondary structure,SS)方法,分组重量编码(encoding based on grouped weight,EBGW)... 提出了一种新的蛋白质折叠识别方法-BAG-fold模型。首先,通过伪位置特异性得分矩阵(pseudo position specific score matrix,PsePSSM)方法,二级结构(secondary structure,SS)方法,分组重量编码(encoding based on grouped weight,EBGW)方法和去趋势互相关分析(detrended cross-correlation analysis,DCCA)方法,共4种方法提取蛋白质序列的特征信息,并由4种特征信息得到混合特征空间。其次,采用局部Fisher判别分析(linear Fisher discriminant analysis,LFDA)减少冗余信息以选取最优特征子集。最后,将最优特征子集输入到Bagging集成分类器中进行蛋白质折叠识别。使用10折交叉验证在DD数据集和RDD数据集的精度分别达到了96.8%和98.8%。实验结果表明,提出的BAG-fold方法明显优于其它预测方法。 展开更多
关键词 蛋白质折叠 多信息融合 去趋势互相关分析法 局部Fisher判别分析 bagging集成学习
下载PDF
增强Fisher判决的Bagging集成分类方法
10
作者 乔石 《太原科技大学学报》 2009年第6期476-479,共4页
提出了一种样本间的相似性度量方法,并将这种相似性度量信息附加到Fisher线性判别的类内、类间离散度矩阵,使得Fisher判决准则在使类内距离达最小、类间距离达最大的同时,也使类内相似度达最小、类间相似度达最大,获得比原始Fisher判别... 提出了一种样本间的相似性度量方法,并将这种相似性度量信息附加到Fisher线性判别的类内、类间离散度矩阵,使得Fisher判决准则在使类内距离达最小、类间距离达最大的同时,也使类内相似度达最小、类间相似度达最大,获得比原始Fisher判别更好的投影矩阵。实验证明,与Bagging集成的Fisherface比较,该方法显示出更好的识别率。 展开更多
关键词 FISHER线性判别 bagging集成分类 相似度 人脸识别
下载PDF
基于Bagging集成方法的互联网金融信用风险评估
11
作者 陈凯玥 《应用数学进展》 2022年第4期1657-1667,共11页
互联网金融是对传统金融模式的延伸,但由于部分借款人在借款后无法按期、足额还款,使得互联网金融平台面临着信用风险。对借款人的信用风险进行准确评估,可以降低风险,并且能够在一定程度上为互联网金融行业的稳定发展提供保障。数据分... 互联网金融是对传统金融模式的延伸,但由于部分借款人在借款后无法按期、足额还款,使得互联网金融平台面临着信用风险。对借款人的信用风险进行准确评估,可以降低风险,并且能够在一定程度上为互联网金融行业的稳定发展提供保障。数据分析方法在信用风险评估领域已有广泛应用。本文从国内某互联网金融平台借款人的个人、资产、借款信息三类数据提取特征,研究了数据分析方法中Logistic回归的衍生方法逐步Logistic回归、弹性网络和Bagging集成方法的代表Bagging、极端随机树和随机森林。研究发现随机森林与逐步Logistic回归分别在F1-score、Accuracy、FPR和AUC指标下效果最优,且筛选出的重要特征也保持一致。 展开更多
关键词 信用风险评估 LOGISTIC回归 bagging集成 特征重要性
下载PDF
KPCA-bagging集成神经网络软测量建模方法 被引量:12
12
作者 夏陆岳 王海宁 +1 位作者 朱鹏飞 潘海天 《信息与控制》 CSCD 北大核心 2015年第5期519-524,共6页
许多化工过程具有机理复杂和强非线性等特点,为了克服常规建模方法存在的不足和提高软测量模型的预测精度,提出一种用于化工过程软测量的核主元分析(KPCA)-bagging集成神经网络建模方法.首先利用KPCA对软测量模型的输入数据进行降维处理... 许多化工过程具有机理复杂和强非线性等特点,为了克服常规建模方法存在的不足和提高软测量模型的预测精度,提出一种用于化工过程软测量的核主元分析(KPCA)-bagging集成神经网络建模方法.首先利用KPCA对软测量模型的输入数据进行降维处理,提取非线性主元并作为模型输入;然后采用bagging集成学习算法得到若干样本子集,通过训练各子集建立多个BP神经网络子模型,采用网格搜索法优化确定各子模型隐含层单元个数与集成模型规模;最后采用岭回归方法实现子模型输出融合,建立KPCA-bagging集成神经网络软测量模型.聚丙烯熔融指数软测量仿真结果表明,采用上述建模方法建立的软测量模型具有较好的预测性能. 展开更多
关键词 核主元分析 bagging集成学习 BP(back propagation)神经网络 软测量 熔融指数
原文传递
修剪Bagging集成的方法及其应用 被引量:7
13
作者 李毓 徐成贤 《系统工程理论与实践》 EI CSCD 北大核心 2008年第7期105-110,共6页
针对回归问题,通过对bagging集成中的每个个体进行重新排序给出了一种修剪bagging集成的方法.该方法使用回归树作为基学习机,从排序后的回归树中选择一部分预测性能较好的个体构建集成.试验结果表明,基于排序后的大约20%的个体构建的集... 针对回归问题,通过对bagging集成中的每个个体进行重新排序给出了一种修剪bagging集成的方法.该方法使用回归树作为基学习机,从排序后的回归树中选择一部分预测性能较好的个体构建集成.试验结果表明,基于排序后的大约20%的个体构建的集成除了占用较少的存储空间和具有较快的预测速度外,其预测性能也比基于所有的个体构建的集成好. 展开更多
关键词 机器学习 集成学习 bagging集成 回归树 修剪集成
原文传递
基于Bagging集成的个人信用风险评估方法研究 被引量:13
14
作者 莫赞 张灿凤 +2 位作者 魏伟 游德创 张舒 《系统工程》 CSSCI 北大核心 2019年第1期143-151,共9页
在个人信用评估问题和风险日益剧增的背景下,为了能够高效地区分申请者的信用情况。从梯度提升树组合特征和集成算法的角度出发,提出一种基于Bagging集成算法的个人信用风险评估模型。为了验证梯度提升树组合生成特征的有效性,利用四个... 在个人信用评估问题和风险日益剧增的背景下,为了能够高效地区分申请者的信用情况。从梯度提升树组合特征和集成算法的角度出发,提出一种基于Bagging集成算法的个人信用风险评估模型。为了验证梯度提升树组合生成特征的有效性,利用四个UCI数据集进行对比测试,结果表明通过增加新的组成特征,模型的鲁棒性更强。最后通过German和Credit两个数据集,与逻辑回归集成、支持向量机集成、随机森林集成、梯度提升树集成进行对比,验证了混合模型的有效性。 展开更多
关键词 个人信用评估 GBDT 组合特征 bagging集成
原文传递
基于BS_Bagging-cLightGBM模型的电动汽车故障预测方法
15
作者 田晟 张津铭 +1 位作者 李成伟 李嘉 《广西师范大学学报(自然科学版)》 CAS 北大核心 2023年第3期9-19,共11页
针对因电动汽车故障数据样本类别不平衡引起的机器模型分类性能欠佳、故障查全率低的问题,本文提出一种以LightGBM为基学习器改进的Bagging集成电动汽车故障预测模型:在Bagging集成学习中使用Borderline_SMOTE方法对训练集重新采样,改... 针对因电动汽车故障数据样本类别不平衡引起的机器模型分类性能欠佳、故障查全率低的问题,本文提出一种以LightGBM为基学习器改进的Bagging集成电动汽车故障预测模型:在Bagging集成学习中使用Borderline_SMOTE方法对训练集重新采样,改善训练子集的数据不平衡程度,避免小类样本信息缺失;将权重系数和正则化项嵌入LightGBM基学习器的损失函数中,提高训练中小类样本的错分类代价。实验结果表明,该模型可有效提高故障查全率、宏平均和AUC值,其中AUC值达到0.898 4,故障样本的查全率为0.808 3,在电动汽车不平衡数据集上的故障分类性能显著优于传统单一模型和其他对比算法。 展开更多
关键词 故障诊断 LightGBM模型 bagging集成学习 不平衡数据 Borderline_SMOTE
下载PDF
增强Bagging集成学习及多目标检测算法 被引量:3
16
作者 车翔玖 于英杰 刘全乐 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2022年第12期2916-2923,共8页
针对现有目标检测算法在医疗影像疾病检测中存在定位精度和分类准确率较低的问题,提出了一种基于动态加权Bagging集成学习的多目标检测方法。以胸部影像疾病检测为例,引入联合注意力(CA)模块增强区域感受野,提升弱学习器对目标区域的定... 针对现有目标检测算法在医疗影像疾病检测中存在定位精度和分类准确率较低的问题,提出了一种基于动态加权Bagging集成学习的多目标检测方法。以胸部影像疾病检测为例,引入联合注意力(CA)模块增强区域感受野,提升弱学习器对目标区域的定位能力;使用动态加权Bagging集成学习方法,根据置信度赋予弱学习器投票权重,降低了模型方差,改善了泛化误差,提升了分类准确率。实验结果表明,在胸部影像疾病检测任务中,本文算法的平均检测精度达到41.9%,相较于YOLOv5原型提高了2.5%,同时G-mean提升了1.3%;将模型加权集成后,平均检测准确率达到81.06%,相较于原模型提升了1.58%,具有较高的定位精度和分类准确率。因此,本文算法可以更好地完成胸部影像疾病检测任务。 展开更多
关键词 计算机应用 胸部影像疾病检测 动态加权bagging集成学习 联合注意力
原文传递
基于Bagging二次加权集成的孤立森林窃电检测算法 被引量:19
17
作者 李国成 陆俊 +2 位作者 王赟 黄瑞 刘谋海 《电力系统自动化》 EI CSCD 北大核心 2022年第2期92-100,共9页
随着智能电网的高速发展,窃电方式呈现多样化,窃电数据也具有难以标注且样本类不平衡的特征。针对窃电数据无标签且类不平衡的窃电检测问题,提出一种基于Bagging二次加权集成的孤立森林窃电检测算法。首先,通过分析居民和商业用户存在... 随着智能电网的高速发展,窃电方式呈现多样化,窃电数据也具有难以标注且样本类不平衡的特征。针对窃电数据无标签且类不平衡的窃电检测问题,提出一种基于Bagging二次加权集成的孤立森林窃电检测算法。首先,通过分析居民和商业用户存在的窃电模式,基于孤立类间相似度最低准则,对各类窃电模式的孤立特征顺序进行优选并训练对应的孤立森林模型;其次,使用加权投票法获得二次集成孤立森林模型,实现了窃电模式不平衡分布条件下的窃电检测。对7种常用学习算法和Bagging异质集成学习算法进行了比较,仿真实验结果表明所提算法的孤立特征顺序优选策略有效提高了无标签且类不平衡条件下的窃电检测效果,二次加权集成策略提高了窃电模式不平衡分布条件下的窃电检测效果。 展开更多
关键词 集成学习 bagging集成 孤立森林 窃电检测 类不平衡数据
下载PDF
利用早期测定数据预测猪达100 kg体重日龄的集成学习模型研究
18
作者 朱良宇 杨喜堤 +6 位作者 朱康平 刘彬 程文强 李平华 甘麦邻 沈林園 朱砺 《中国畜牧杂志》 CAS CSCD 北大核心 2024年第5期94-100,共7页
本试验旨在利用早期测定数据预测猪达100 kg体重的日龄。猪达100 kg体重日龄是评估猪生长速度和发育程度的重要指标,近年来,猪养殖企业期望构建一个通过早期测定数据对达100 kg日龄体重进行预测的模型,这种预测可以帮助企业评估幼年阶... 本试验旨在利用早期测定数据预测猪达100 kg体重的日龄。猪达100 kg体重日龄是评估猪生长速度和发育程度的重要指标,近年来,猪养殖企业期望构建一个通过早期测定数据对达100 kg日龄体重进行预测的模型,这种预测可以帮助企业评估幼年阶段动物的生长潜力,并做出相应的管理和决策。本研究针对20~60kg的猪只,采集其体重、日龄、品种、性别等早期测定特征,建立机器学习模型,通过模型选留、集成学习最终构建猪达100 kg体重日龄的早期预测模型,预测准确度达90.01%。本研究可以帮助研究人员更加准确地评估猪生长速度和发育程度,为饲养管理提供指导。 展开更多
关键词 早期预测 机器学习 bagging集成学习
下载PDF
基于Bagging集成算法的产品质量等级智能判定研究 被引量:2
19
作者 柏雪 李剑锋 《工业工程与管理》 北大核心 2022年第4期58-66,共9页
工业大数据驱动人工智能赋能企业创新发展,正在对制造业生产方式、运行模式、生态体系产生重大而深远的影响。为实现产品质量等级的智能判定,提出一种基于Bagging集成的产品质量等级判定模型。模型将梯度提升决策树引入Bagging集成框架... 工业大数据驱动人工智能赋能企业创新发展,正在对制造业生产方式、运行模式、生态体系产生重大而深远的影响。为实现产品质量等级的智能判定,提出一种基于Bagging集成的产品质量等级判定模型。模型将梯度提升决策树引入Bagging集成框架,权衡偏差和方差以减弱合格品与不合格品数量不平衡带来的影响。将该方法应用于某化纤企业涤纶长丝的真实生产中,结果表明模型能够实现长丝质量等级的准确判定,帮助企业提高产品质量检验效率,降低人工成本并有效提升产品的质量管理水平。 展开更多
关键词 涤纶长丝 质量等级判定 bagging集成 GBDT 最大信息系数
原文传递
Bootstrap样本大数据模型和分布式集成学习方法
20
作者 罗凯靖 张育铭 +1 位作者 何玉林 黄哲学 《大数据》 2024年第3期93-108,共16页
传统Bootstrap抽样和Bagging集成学习通常以串行方式实现,计算效率低,且存在样本不可重用、扩展性差等问题,不适合高效的大规模Bagging集成学习。从大数据分布式计算的思维入手,提出新的Bootstrap样本划分(BSP)大数据模型和分布式集成... 传统Bootstrap抽样和Bagging集成学习通常以串行方式实现,计算效率低,且存在样本不可重用、扩展性差等问题,不适合高效的大规模Bagging集成学习。从大数据分布式计算的思维入手,提出新的Bootstrap样本划分(BSP)大数据模型和分布式集成学习方法。BSP数据模型通过分布式生成算法将训练数据表达成分布式Bootstrap样本集的集合,存储成HDFS分布式数据文件,为后续的分布式集成学习提供数据支持。分布式集成学习方法从BSP数据模型中随机选取多个BSP数据块,读入集群各个节点的虚拟机,用串行算法对选取的数据块并行计算统计量或训练建模,再将所有的计算子结果回传至主节点中,生成最终的集成学习结果,此过程中可加入对子结果的质量选择以进一步提高预测效果。BSP数据模型的生成和分布式集成学习采用非Map-Reduce计算范式进行,每个数据块的计算独立完成,减少了计算节点间的数据通信开销。提出的算法在Spark开源系统中以新的算子方式实现,供Spark应用程序调用。实验表明,新方法可以高效地生成训练数据的BSP数据模型,提高数据样本的可重用性,在基于有监督机器学习算法构建的大规模Bagging集成学习实验中,计算效率能提高50%以上,同时预测精度进一步提高约2%。 展开更多
关键词 Bootstrap抽样 bagging集成学习 分布式集成学习 SPARK
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部