期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
结合样本局部密度的非平衡数据集成分类算法 被引量:10
1
作者 杨浩 陈红梅 《计算机科学与探索》 CSCD 北大核心 2020年第2期274-284,共11页
传统的过采样方法是解决非平衡数据分类问题的有效方法之一。基于SMOTE的过采样方法在数据集出现类别重叠(class-overlapping)和小析取项(small-disjuncts)问题时将降低采样的效果,针对该问题提出了一种基于样本局部密度的过采样算法MO... 传统的过采样方法是解决非平衡数据分类问题的有效方法之一。基于SMOTE的过采样方法在数据集出现类别重叠(class-overlapping)和小析取项(small-disjuncts)问题时将降低采样的效果,针对该问题提出了一种基于样本局部密度的过采样算法MOLAD。在此基础上,为了解决非平衡数据的分类问题,提出了一种在采样阶段将MOLAD算法和基于Bagging的集成学习结合的算法LADBMOTE。LADBMOTE首先根据MOLAD计算每个少数类样本的K近邻,然后选择所有的K近邻进行采样,生成K个平衡数据集,最后利用基于Bagging的集成学习方法将K个平衡数据集训练得到的分类器集成。在KEEL公开的20个非平衡数据集上,将提出的LADBMOTE算法与当前流行的7个处理非平衡数据的算法对比,实验结果表明LADBMOTE在不同的分类器上的分类性能更好,鲁棒性更强。 展开更多
关键词 非平衡数据 近邻计算策略 集成学习 过采样
下载PDF
基于微操作的Hadoop参数自动调优方法 被引量:3
2
作者 李耘书 滕飞 李天瑞 《计算机应用》 CSCD 北大核心 2019年第6期1589-1594,共6页
Hadoop作为大规模分布式数据处理框架已经在工业界得到广泛的应用,针对手动和经验调优方法中参数空间庞大和运行流程复杂的问题,提出了一种Hadoop参数自动优化的方法和分析框架。首先,对作业运行流程进行解耦,从可变参数直接影响的更细... Hadoop作为大规模分布式数据处理框架已经在工业界得到广泛的应用,针对手动和经验调优方法中参数空间庞大和运行流程复杂的问题,提出了一种Hadoop参数自动优化的方法和分析框架。首先,对作业运行流程进行解耦,从可变参数直接影响的更细粒度的角度定义微操作,从而分析参数和单次微操作执行时间的关系;然后,利用微操作对作业运行流程进行重构,建立参数和作业运行时间关系的模型;最后,在此模型上应用各类搜索优化算法高效快速得出优化后的系统参数。在terasort和wordcount两个作业类型上进行了实验,实验结果表明,相对于默认参数情况,该方法使作业执行时间分别缩短了至少41%和30%。该方法能够有效提高Hadoop作业执行效率,缩短作业执行时间。 展开更多
关键词 HADOOP 参数调优 微操作 重构 搜索算法
下载PDF
基于NKSMOTE算法的非平衡数据集分类方法 被引量:6
3
作者 王莉 陈红梅 《计算机科学》 CSCD 北大核心 2018年第9期260-265,共6页
SMOTE(Synthetic Minority Over-sampling TEchnique)在进行样本合成时只在少数类中求其K近邻,这会导致过采样之后少数类样本的密集程度不变的问题。鉴于此,提出一种新的过采样算法NKSMOTE(New Kernel Synthetic Minority Over-Sampling... SMOTE(Synthetic Minority Over-sampling TEchnique)在进行样本合成时只在少数类中求其K近邻,这会导致过采样之后少数类样本的密集程度不变的问题。鉴于此,提出一种新的过采样算法NKSMOTE(New Kernel Synthetic Minority Over-Sampling Technique)。该算法首先利用一个非线性映射函数将样本映射到一个高维的核空间,然后在核空间上计算少数类样本在所有样本中的K个近邻,最后根据少数类样本的分布对算法分类性能的影响程度赋予少数类样本不同的向上采样倍率,从而改变数据集的非平衡度。实验采用决策树(Decision Tree,DT)、误差逆传播算法(error BackPropagation,BP)、随机森林(Random Forest,RF)作为分类算法,并将几类经典的过采样方法和文中提出的过采样方法进行多组对比实验。在UCI数据集上的实验结果表明,NKSMOTE算法具有更好的分类性能。 展开更多
关键词 SMOTE算法 过采样 核空间 非平衡度 分类
下载PDF
基于增强特征判别性的典型相关分析和分类集成的助学金预测方法 被引量:1
4
作者 张芳娟 杨燕 杜圣东 《计算机应用》 CSCD 北大核心 2018年第11期3150-3155,共6页
针对高校资助管理办法效率低下、工作量大等问题,提出一种增强特征判别性的典型相关分析(ENDCCA)方法,并结合分类集成方法实现高校学生助学金预测。将学生在校多维度数据划分为两个不同视图,已有的各种多视图判别典型相关分析算法没有... 针对高校资助管理办法效率低下、工作量大等问题,提出一种增强特征判别性的典型相关分析(ENDCCA)方法,并结合分类集成方法实现高校学生助学金预测。将学生在校多维度数据划分为两个不同视图,已有的各种多视图判别典型相关分析算法没有综合考虑视图类别之间的相关性和视图组合特征的判别性两者因素。ENDCCA的优化目标在最大化类内相关的同时最小化类间相关,并且考虑了视图组合特征的判别性,进一步强化了属性的判别性能,更有利于分类预测。高校学生助学金预测的实现过程:首先,根据学生生活行为和学习表现将数据预处理为两个不同视图,然后用EN-DCCA方法对这两个视图数据进行特征学习,最后用分类集成方法完成预测。在真实的数据集上进行实验,所提方法的预测准确率达到90.01%,较增强视图组合特征判别性的典型相关分析(CECCA)的集成方法提高了2个百分点,实验结果表明,所提方法能有效实现高校助学金预测。 展开更多
关键词 分类集成 多视图 典型相关分析 增强视图特征判别性
下载PDF
一种新的双策略进化果蝇优化算法 被引量:1
5
作者 方波 陈红梅 《山东大学学报(工学版)》 CAS CSCD 北大核心 2019年第3期22-31,共10页
标准果蝇优化算法(fruit fly optimization algorithm, FOA)在迭代寻优的过程中,整个果蝇群体只向最优个体靠近,这导致算法极易陷入局部最优,从而引起早熟收敛的问题。针对该问题,提出一种新的双策略进化果蝇优化算法(a novel double st... 标准果蝇优化算法(fruit fly optimization algorithm, FOA)在迭代寻优的过程中,整个果蝇群体只向最优个体靠近,这导致算法极易陷入局部最优,从而引起早熟收敛的问题。针对该问题,提出一种新的双策略进化果蝇优化算法(a novel double strategies evolutionary fruit fly optimization algorithm, DSEFOA)。提出的一种新的群体分割策略,将果蝇群体动态地划分为精英子群和普通子群;对于精英子群,引入混沌变量引导果蝇个体在其附近搜索食物,优化其局部搜索能力;对于普通子群,引入权重因子改进标准FOA的随机搜索方式,执行全局搜索,加快收敛速度。DSEFOA算法针对不同进化水平的果蝇个体采用不同的策略更新进化,充分地提升了整个群体的寻优搜索能力。8个测试函数的仿真试验结果表明,DSEFOA算法有比标准FOA算法更好的优化性能。 展开更多
关键词 果蝇优化算法 群体分割策略 混沌变量 权重因子
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部