期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于随机平衡采样的不确定大数据流在线分类算法
1
作者 杨知玲 《现代电子技术》 2023年第19期125-128,共4页
不确定大数据流具有动态性和不平衡性特点,导致分类结果不精准,为此提出基于随机平衡采样的不确定大数据流在线分类算法。根据Spark框架大数据筛选结构,过滤筛选不确定大数据,释放不满足条件的大数据。应用Hoeffding算法计算实际值与观... 不确定大数据流具有动态性和不平衡性特点,导致分类结果不精准,为此提出基于随机平衡采样的不确定大数据流在线分类算法。根据Spark框架大数据筛选结构,过滤筛选不确定大数据,释放不满足条件的大数据。应用Hoeffding算法计算实际值与观测值之差,判断差值与属性差值之间的关系,确定最佳分类属性。随机设定最小类别与最大类别数目,对非平衡样本抽样,避免因样本规模过大而造成的样本损失。建立在线分类器,逐级筛选不确定大数据。通过计算不确定信息增益,获取归类最大可能性类别,实现大数据流的在线分类。由实验结果可知,该算法对数据集W1、W2、W3分类的准确率最低值分别达到90%、94%、83%,具有精准分类效果。 展开更多
关键词 随机平衡采样 不确定 大数据流 在线分类 属性差值 最佳分类属性
下载PDF
改进的随机平衡采样Bagging算法的网络贷款研究 被引量:1
2
作者 郭冰楠 吴广潮 《计算机与现代化》 2019年第4期11-16,共6页
互联网金融中的网络贷款用户数据具有类别不平衡的特性,严重影响传统分类器的性能。随机平衡采样算法在对原始数据集进行重采样的过程中,将所有样本同等考虑,本文在平衡采样的过程中充分考虑样本点的性能,将其分为3类样本:安全的、边界... 互联网金融中的网络贷款用户数据具有类别不平衡的特性,严重影响传统分类器的性能。随机平衡采样算法在对原始数据集进行重采样的过程中,将所有样本同等考虑,本文在平衡采样的过程中充分考虑样本点的性能,将其分为3类样本:安全的、边界的、噪声的,针对不同类型的样本采用相应的采样方法,得到平衡的新数据集,然后对该数据集进行Bagging集成,提高算法的泛化性能,结果表明本文改进的随机平衡采样(Improved Random Balanced Sampling,IRBS) Bagging算法可以较好地对网络贷款用户进行分类。 展开更多
关键词 类别不平衡 随机平衡采样 Bagging集成
下载PDF
基于RB-XGBoost算法的智能电网调度控制系统健康度评价模型 被引量:38
3
作者 谈林涛 李军良 +4 位作者 任昺 何杨 高欣 徐建航 黄晴晴 《电力自动化设备》 EI CSCD 北大核心 2020年第2期189-195,共7页
针对智能电网调度控制系统(D5000系统)健康度评价,基于专家经验的传统评价方法存在主观性较大的问题,机器学习多分类方法是提高评价客观性的一种有效手段,但健康度各等级样本数目间存在的不平衡问题导致分类准确率较低,为此提出一种基... 针对智能电网调度控制系统(D5000系统)健康度评价,基于专家经验的传统评价方法存在主观性较大的问题,机器学习多分类方法是提高评价客观性的一种有效手段,但健康度各等级样本数目间存在的不平衡问题导致分类准确率较低,为此提出一种基于随机平衡和极端梯度提升(RB-XGBoost)算法的D5000系统健康度评价模型。首先,针对系统各评价等级样本数目严重不平衡的问题,提出一种自适应随机平衡(RB)的混合采样方法,分别以等级间样本数目的最大值、最小值作为采样区间的上、下限,生成多个随机数对各等级样本数据进行欠采样或过采样,增加训练数据的多样性并降低其不平衡程度;然后,训练平衡后的样本数据,建立极端梯度提升(XGBoost)算法子模型,考虑到各子模型重要度的一致性,提出采用硬投票方式集成所有子模型,得到与D5000系统各子模块对应的评价模型;最后,根据该系统指标层级关系,在评价过程中采用并、串行结合的计算方式,构建包含17个RB-XGBoost模型的D5000系统整体健康度评价模型。8组KEEL数据库中多类不平衡数据集的实验结果表明,与现有同类典型方法相比,所提方法的平均分类准确率最高提升了6.79%,平均提升了2.03%;某网省级D5000系统的实时采集数据验证了所提方法的有效性。 展开更多
关键词 智能电网 D5000系统 健康度评价 多分类 自适应随机平衡采样 XGBoost算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部