期刊文献+
共找到401篇文章
< 1 2 21 >
每页显示 20 50 100
基于惩罚的SVM和集成学习的非平衡数据分类算法研究 被引量:6
1
作者 刘进军 《计算机应用与软件》 CSCD 北大核心 2014年第1期186-190,共5页
利用各类算法对非平衡数据进行处理已成为数据挖掘领域研究的热问题。针对非平衡数据的特点,在研究支持向量机的相关理论及K-SVM算法基础上,提出基于惩罚机制的PFKSVM(K-SVMbased on penalty factor)算法,克服K-SVM在最优分类面附近易... 利用各类算法对非平衡数据进行处理已成为数据挖掘领域研究的热问题。针对非平衡数据的特点,在研究支持向量机的相关理论及K-SVM算法基础上,提出基于惩罚机制的PFKSVM(K-SVMbased on penalty factor)算法,克服K-SVM在最优分类面附近易发生错分的问题;并提出由重构采样层、基本训练层和综合判定层组成的集成学习模型。利用UCI公共数据集的实验验证了PFKSVM算法及集成模型在处理非平衡数据分类时的优势。 展开更多
关键词 数据挖掘 支持向量机(SVM) 非平衡数据分类集成学习
下载PDF
非平衡数据流在线主动学习方法
2
作者 李艳红 任霖 +1 位作者 王素格 李德玉 《自动化学报》 EI CAS CSCD 北大核心 2024年第7期1389-1401,共13页
数据流分类是数据流挖掘领域一项重要研究任务,目标是从不断变化的海量数据中捕获变化的类结构.目前,几乎没有框架可以同时处理数据流中常见的多类非平衡、概念漂移、异常点和标记样本成本高昂问题.基于此,提出一种非平衡数据流在线主... 数据流分类是数据流挖掘领域一项重要研究任务,目标是从不断变化的海量数据中捕获变化的类结构.目前,几乎没有框架可以同时处理数据流中常见的多类非平衡、概念漂移、异常点和标记样本成本高昂问题.基于此,提出一种非平衡数据流在线主动学习方法(Online active learning method for imbalanced data stream,OALM-IDS).AdaBoost是一种将多个弱分类器经过迭代生成强分类器的集成分类方法,AdaBoost.M2引入了弱分类器的置信度,此类方法常用于静态数据.定义了基于非平衡比率和自适应遗忘因子的训练样本重要性度量,从而使AdaBoost.M2方法适用于非平衡数据流,提升了非平衡数据流集成分类器的性能.提出了边际阈值矩阵的自适应调整方法,优化了标签请求策略.将概念漂移程度融入模型构建过程中,定义了基于概念漂移指数的自适应遗忘因子,实现了漂移后的模型重构.在6个人工数据流和4个真实数据流上的对比实验表明,提出的非平衡数据流在线主动学习方法的分类性能优于其他5种非平衡数据流学习方法. 展开更多
关键词 主动学习 数据分类 多类平衡 概念漂移
下载PDF
一种用于非平衡数据分类的集成学习模型 被引量:5
3
作者 焦盛岚 杨炳儒 +1 位作者 翟云 赵万里 《计算机工程与应用》 CSCD 2012年第29期119-123,219,共6页
针对非平衡数据分类问题,提出了一种改进的SVM-KNN分类算法,在此基础上设计了一种集成学习模型。该模型采用限数采样方法对多数类样本进行分割,将分割后的多数类子簇与少数类样本重新组合,利用改进的SVM-KNN分别训练,得到多个基本分类器... 针对非平衡数据分类问题,提出了一种改进的SVM-KNN分类算法,在此基础上设计了一种集成学习模型。该模型采用限数采样方法对多数类样本进行分割,将分割后的多数类子簇与少数类样本重新组合,利用改进的SVM-KNN分别训练,得到多个基本分类器,对各个基本分类器进行组合。采用该模型对UCI数据集进行实验,结果显示该模型对于非平衡数据分类有较好的效果。 展开更多
关键词 平衡数据 集成学习模型 基本分类 改进的支持向量机-K最近邻(SVM-KNN) UCI数据
下载PDF
非平衡概念漂移数据流主动学习方法
4
作者 李艳红 王甜甜 +1 位作者 王素格 李德玉 《自动化学报》 EI CAS CSCD 北大核心 2024年第3期589-606,共18页
数据流分类研究在开放、动态环境中如何提供更可靠的数据驱动预测模型,关键在于从实时到达且不断变化的数据流中检测并适应概念漂移.目前,为检测概念漂移和更新分类模型,数据流分类方法通常假设所有样本的标签都是已知的,这一假设在真... 数据流分类研究在开放、动态环境中如何提供更可靠的数据驱动预测模型,关键在于从实时到达且不断变化的数据流中检测并适应概念漂移.目前,为检测概念漂移和更新分类模型,数据流分类方法通常假设所有样本的标签都是已知的,这一假设在真实场景下是不现实的.此外,真实数据流可能表现出较高且不断变化的类不平衡比率,会进一步增加数据流分类任务的复杂性.为此,提出一种非平衡概念漂移数据流主动学习方法 (Active learning method for imbalanced concept drift data stream, ALM-ICDDS).定义基于多预测概率的样本预测确定性度量,提出边缘阈值矩阵的自适应调整方法,使得标签查询策略适用于类别数较多的非平衡数据流;提出基于记忆强度的样本替换策略,将难区分、少数类样本和代表当前数据分布的样本保存在记忆窗口中,提升新基分类器的分类性能;定义基于分类精度的基分类器重要性评价及更新方法,实现漂移后的集成分类器更新.在7个合成数据流和3个真实数据流上的对比实验表明,提出的非平衡概念漂移数据流主动学习方法的分类性能优于6种概念漂移数据流学习方法. 展开更多
关键词 数据分类 主动学习 概念漂移 多类不平衡
下载PDF
新的基于代价敏感集成学习的非平衡数据集分类方法NIBoost 被引量:11
5
作者 王莉 陈红梅 王生武 《计算机应用》 CSCD 北大核心 2019年第3期629-633,共5页
现实生活中存在大量的非平衡数据,大多数传统的分类算法假定类分布平衡或者样本的错分代价相同,因此在对这些非平衡数据进行分类时会出现少数类样本错分的问题。针对上述问题,在代价敏感的理论基础上,提出了一种新的基于代价敏感集成学... 现实生活中存在大量的非平衡数据,大多数传统的分类算法假定类分布平衡或者样本的错分代价相同,因此在对这些非平衡数据进行分类时会出现少数类样本错分的问题。针对上述问题,在代价敏感的理论基础上,提出了一种新的基于代价敏感集成学习的非平衡数据分类算法——NIBoost (New Imbalanced Boost)。首先,在每次迭代过程中利用过采样算法新增一定数目的少数类样本来对数据集进行平衡,在该新数据集上训练分类器;其次,使用该分类器对数据集进行分类,并得到各样本的预测类标及该分类器的分类错误率;最后,根据分类错误率和预测的类标计算该分类器的权重系数及各样本新的权重。实验采用决策树、朴素贝叶斯作为弱分类器算法,在UCI数据集上的实验结果表明,当以决策树作为基分类器时,与RareBoost算法相比,F-value最高提高了5.91个百分点、G-mean最高提高了7.44个百分点、AUC最高提高了4.38个百分点;故该新算法在处理非平衡数据分类问题上具有一定的优势。 展开更多
关键词 平衡数据 分类 代价敏感 过采样 ADABOOST算法
下载PDF
非平衡样本分类的集成迁移学习算法 被引量:27
6
作者 于重重 田蕊 +1 位作者 谭励 涂序彦 《电子学报》 EI CAS CSCD 北大核心 2012年第7期1358-1363,共6页
针对冗余数据量大且正负样本不平衡的辅助训练数据,提出了一种改进集成迁移学习算法,利用这些辅助训练数据迁移帮助目标数据进行分类.新的样本初始权重分配及调整策略,突出了对负样本的识别能力.通过动态调整辅助训练集,根据设定好的权... 针对冗余数据量大且正负样本不平衡的辅助训练数据,提出了一种改进集成迁移学习算法,利用这些辅助训练数据迁移帮助目标数据进行分类.新的样本初始权重分配及调整策略,突出了对负样本的识别能力.通过动态调整辅助训练集,根据设定好的权重阈值下限适时地淘汰冗余数据,降低了冗余数据对分类器性能的影响,提升了迁移学习对非平衡样本的学习能力.本文利用桥梁实际监测数据进行的实验表明了该算法较TrAdaboost算法的有效性. 展开更多
关键词 迁移学习 分类集成 冗余数据淘汰 权重分配
下载PDF
基于新型集成分类器的非平衡数据分类关键问题研究 被引量:8
7
作者 翟云 杨炳儒 +1 位作者 曲武 隋海峰 《系统工程与电子技术》 EI CSCD 北大核心 2011年第1期196-201,共6页
针对非平衡数据分类问题,提出了一种基于差异采样率的重采样算法(differentiated sampling rate algorithm,DSRA),基于DSRA设计了一种新的集成分类器(SVM-Ripper ensemble classifier,SREC)。SREC采用独特的分类器选择策略、分类器集成... 针对非平衡数据分类问题,提出了一种基于差异采样率的重采样算法(differentiated sampling rate algorithm,DSRA),基于DSRA设计了一种新的集成分类器(SVM-Ripper ensemble classifier,SREC)。SREC采用独特的分类器选择策略、分类器集成策略、分类决策方案,可获得较高的分类精度。同时,利用SREC对影响非平衡数据分类的关键问题进行了研究。结果表明,非平衡数据分类问题本质上是由正负样本类间非平衡、类内非平衡、样本规模以及样本非平衡度等诸多因素引起的,只有综合考虑这些因素才能更好地解决非平衡数据分类问题。 展开更多
关键词 数据挖掘 平衡数据分类 集成分类 关键问题
下载PDF
优化的支持向量机集成分类器在非平衡数据集分类中的应用 被引量:9
8
作者 章少平 梁雪春 《计算机应用》 CSCD 北大核心 2015年第5期1306-1309,共4页
传统的分类算法大都建立在平衡数据集的基础上,当样本数据不平衡时,这些学习算法的性能往往会明显下降。对于非平衡数据分类问题,提出了一种优化的支持向量机(SVM)集成分类器模型,采用KSMOTE和Bootstrap对非平衡数据进行预处理,生成相应... 传统的分类算法大都建立在平衡数据集的基础上,当样本数据不平衡时,这些学习算法的性能往往会明显下降。对于非平衡数据分类问题,提出了一种优化的支持向量机(SVM)集成分类器模型,采用KSMOTE和Bootstrap对非平衡数据进行预处理,生成相应的SVM模型并用复合形算法优化模型参数,最后利用优化的参数并行生成SVM集成分类器模型,采用投票机制得到分类结果。对5组UCI标准数据集进行实验,结果表明采用优化的SVM集成分类器模型较SVM模型、优化的SVM模型等分类精度有了明显的提升,同时验证了不同的boot Num取值对分类器性能效果的影响。 展开更多
关键词 平衡数据 分类算法 支持向量机 集成分类
下载PDF
结合样本局部密度的非平衡数据集成分类算法 被引量:10
9
作者 杨浩 陈红梅 《计算机科学与探索》 CSCD 北大核心 2020年第2期274-284,共11页
传统的过采样方法是解决非平衡数据分类问题的有效方法之一。基于SMOTE的过采样方法在数据集出现类别重叠(class-overlapping)和小析取项(small-disjuncts)问题时将降低采样的效果,针对该问题提出了一种基于样本局部密度的过采样算法MO... 传统的过采样方法是解决非平衡数据分类问题的有效方法之一。基于SMOTE的过采样方法在数据集出现类别重叠(class-overlapping)和小析取项(small-disjuncts)问题时将降低采样的效果,针对该问题提出了一种基于样本局部密度的过采样算法MOLAD。在此基础上,为了解决非平衡数据的分类问题,提出了一种在采样阶段将MOLAD算法和基于Bagging的集成学习结合的算法LADBMOTE。LADBMOTE首先根据MOLAD计算每个少数类样本的K近邻,然后选择所有的K近邻进行采样,生成K个平衡数据集,最后利用基于Bagging的集成学习方法将K个平衡数据集训练得到的分类器集成。在KEEL公开的20个非平衡数据集上,将提出的LADBMOTE算法与当前流行的7个处理非平衡数据的算法对比,实验结果表明LADBMOTE在不同的分类器上的分类性能更好,鲁棒性更强。 展开更多
关键词 平衡数据 近邻计算策略 集成学习 过采样
下载PDF
基于多类重采样的非平衡数据极速学习机集成学习 被引量:5
10
作者 邢胜 王熙照 王晓兰 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2016年第1期203-211,共9页
极速学习机(Extreme learning machine,ELM)虽然已在理论和应用中证实有很好的泛化性能和极快的训练速度,但是在处理非均衡数据时,它更偏向多数类且极容易忽略少数类,基于数据重采样的集成学习可以帮助ELM解决少数类分类精度低的问题.... 极速学习机(Extreme learning machine,ELM)虽然已在理论和应用中证实有很好的泛化性能和极快的训练速度,但是在处理非均衡数据时,它更偏向多数类且极容易忽略少数类,基于数据重采样的集成学习可以帮助ELM解决少数类分类精度低的问题.提出一种按类别重采样技术并据此发展了一种ELM集成学习方法.该方法可充分利用少数类样本的信息,实验结果显示该方法性能明显优于单一的ELM学习模型.由于重采样是大数据处理的最核心的技术之一,该方法对非均衡大数据的学习模型建立有着一般性的指导意义. 展开更多
关键词 极速学习 均衡数据 重采样 集成学习
下载PDF
基于MapReduce和上采样的两类非平衡大数据集成分类 被引量:3
11
作者 翟俊海 张明阳 +2 位作者 王陈希 刘晓萌 王耀达 《数据采集与处理》 CSCD 北大核心 2018年第3期416-425,共10页
提出了一种基于MapReduce和上采样的两类非平衡大数据分类方法,该方法分为5步:(1)对于每一个正类样例,用MapReduce寻找其异类最近临;(2)在两个样例点之间的直线上生成若干个正类样例;(3)以新的正类样例子集的大小为基准,将负类样例随机... 提出了一种基于MapReduce和上采样的两类非平衡大数据分类方法,该方法分为5步:(1)对于每一个正类样例,用MapReduce寻找其异类最近临;(2)在两个样例点之间的直线上生成若干个正类样例;(3)以新的正类样例子集的大小为基准,将负类样例随机划分为若干子集;(4)用负类样例子集和正类样例子集构造若干个平衡数据子集;(5)用平衡数据子集训练若干个分类器,并对训练好的分类器进行集成。在5个两类非平衡大数据集上与3种相关方法进行了实验比较,实验结果表明本文提出的优于这3种方法。 展开更多
关键词 数据 平衡分类 上采样 最近邻
下载PDF
基于集成的非均衡数据分类主动学习算法 被引量:4
12
作者 李卓然 张永 《计算机应用与软件》 CSCD 北大核心 2012年第6期81-83,88,共4页
当前,处理类别非均衡数据采用的主要方法之一就是预处理,将数据均衡化之后采取传统的方法加以训练。预处理的方法主要有过取样和欠取样,然而过取样和欠取样都有自己的不足,提出拆分提升主动学习算法SBAL(Split-Boost Active Learning),... 当前,处理类别非均衡数据采用的主要方法之一就是预处理,将数据均衡化之后采取传统的方法加以训练。预处理的方法主要有过取样和欠取样,然而过取样和欠取样都有自己的不足,提出拆分提升主动学习算法SBAL(Split-Boost Active Learning),该算法将大类样本集根据非均衡比例分成多个子集,子集与小类样本集合并,对其采用AdaBoost算法训练子分类器,然后集成一个总分类器,并基于QBC(Query-by-committee)主动学习算法主动选取有效样本进行训练,基本避免了由于增加样本或者减少样本所带来的不足。实验表明,提出的算法对于非均衡数据具有更高的分类精度。 展开更多
关键词 均衡数据 集成 主动学习 分类
下载PDF
基于不平衡数据与集成学习的柴油机故障诊断研究
13
作者 李伟真 商蕾 +1 位作者 汪敏 邱天 《武汉理工大学学报(交通科学与工程版)》 2024年第4期661-667,共7页
文中将集成学习理论与深度置信网络相结合,采用Adaboost-M2算法作为集成学习生成方法,使用麻雀搜索算法确定不同终止适应度下的不同初始化超参数分布的深度置信网络模型.将上述不同的深度置信网络模型作为基分类器进行集成学习,得到集成... 文中将集成学习理论与深度置信网络相结合,采用Adaboost-M2算法作为集成学习生成方法,使用麻雀搜索算法确定不同终止适应度下的不同初始化超参数分布的深度置信网络模型.将上述不同的深度置信网络模型作为基分类器进行集成学习,得到集成Ada-DBN模型.并通过实验分析了分类器数量对集成学习后的模型诊断性能的影响.结果表明:集成Ada-DBN模型不仅能够保证在平衡数据下的诊断能力,还能提高在不平衡数据下的泛化能力,是一种适用于实际柴油机故障诊断的有效方法. 展开更多
关键词 船舶柴油机 平衡数据 故障诊断 深度置信网络 集成学习
下载PDF
基于重采样和混合集成学习的不平衡窃电检测 被引量:3
14
作者 游文霞 梁皓 +3 位作者 杨楠 李清清 吴永华 李文武 《电网技术》 EI CSCD 北大核心 2024年第2期730-739,共10页
针对电力用户类别不平衡导致窃电检测具有偏向性问题,该文提出一种基于重采样和混合集成学习的不平衡窃电检测模型。首先以Easy-ensemble混合集成学习框架为基础确定最佳采样子集数;然后通过重采样自适应策略,即根据用户用电数据集的不... 针对电力用户类别不平衡导致窃电检测具有偏向性问题,该文提出一种基于重采样和混合集成学习的不平衡窃电检测模型。首先以Easy-ensemble混合集成学习框架为基础确定最佳采样子集数;然后通过重采样自适应策略,即根据用户用电数据集的不平衡度以及最佳采样子集数确定检测模型的重采样方式,使用电数据达到平衡;最后按照先串行集成减小偏差、后并行集成降低方差的混合集成方式,对重采样后的均衡样本进行窃电检测。算例对比分析表明所提检测模型通过重采样和混合集成有效解决了传统集成算法在不平衡窃电检测中的偏向问题,降低了由于用电数据的不平衡性对集成结果的影响,提高了用户类别不平衡的窃电检测效果,在多种不平衡度下模型的准确率、F1值和G均值均表现优异。 展开更多
关键词 窃电检测 平衡数据 重采样 集成学习 Easy-Ensemble集成框架
下载PDF
基于不平衡数据与集成学习的属性级情感分类 被引量:4
15
作者 林夕 陈孜卓 王中卿 《计算机科学》 CSCD 北大核心 2022年第S01期144-149,共6页
情感分类一直是自然语言处理领域的重要研究部分。该任务一般是将带有情感色彩的样本分类成正类和负类两种类别。在很多理论模型中,都假设正负类数据样本是平衡的,而在现实中正负类样本一般是不平衡的。提出一种基于属性级的LSTM集成学... 情感分类一直是自然语言处理领域的重要研究部分。该任务一般是将带有情感色彩的样本分类成正类和负类两种类别。在很多理论模型中,都假设正负类数据样本是平衡的,而在现实中正负类样本一般是不平衡的。提出一种基于属性级的LSTM集成学习的方法,针对不平衡样本数据进行属性级情感分类。首先,对数据集进行欠采样处理,将其分成多组;其次,为每组数据分配一种分类算法进行训练;最后,将多组模型融合,得到最终分类结果。一系列的实验结果显示,基于属性级的LSTM集成学习的方法明显提高了分类的准确性,其性能优于传统的LSTM模型分类方法。 展开更多
关键词 平衡数据 LSTM 集成学习 情感分类 属性词
下载PDF
一种面向动态不平衡数据流的集成超限学习机分类算法 被引量:1
16
作者 高源 施伟谊 +3 位作者 周亦华 梅颖 卢诚波 蔡锡飞 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2023年第3期352-361,共10页
随着数据收集、存储和传输技术的快速发展,数据流的挖掘处理技术正在成为机器学习中的一个热点问题。在许多情形下,持续到达的数据之间可能会呈现出不平衡的态势,甚至是动态不平衡,这给许多机器学习算法造成了困难。文中提出面向动态不... 随着数据收集、存储和传输技术的快速发展,数据流的挖掘处理技术正在成为机器学习中的一个热点问题。在许多情形下,持续到达的数据之间可能会呈现出不平衡的态势,甚至是动态不平衡,这给许多机器学习算法造成了困难。文中提出面向动态不平衡数据流的集成超限学习机算法,设计了数据流中不平衡率变化的快速监测方法,修正了历史数据不平衡率的计算方式,使其更接近不平衡率的实时变化,并结合超限学习机的特点,将增量学习与集成学习结合。定期剔除权重低的基分类器,利用新到达的数据更新集成中的基分类器和训练新的基分类器。该方法针对动态不平衡数据流设计,具有很好的学习能力,同时也能适用于静态或者平衡的数据流的分类。实验中,将该方法与其他几种常用的方法在一些不同类型的数据流上进行了比较,结果表明,文中方法的分类性能更好。 展开更多
关键词 动态不平衡 数据 集成 超限学习 概念漂移
下载PDF
基于概率采样和集成学习的不平衡数据分类算法 被引量:13
17
作者 曹雅茜 黄海燕 《计算机科学》 CSCD 北大核心 2019年第5期203-208,共6页
集成学习由于泛化能力强,被广泛应用于信息检索、图像处理、生物学等类别不平衡的场景。为了提高算法在不平衡数据上的分类效果,文中提出一种基于采样平衡和特征选择的集成学习算法OBPD-EFSBoost。该算法主要包括3个步骤:首先,依据少数... 集成学习由于泛化能力强,被广泛应用于信息检索、图像处理、生物学等类别不平衡的场景。为了提高算法在不平衡数据上的分类效果,文中提出一种基于采样平衡和特征选择的集成学习算法OBPD-EFSBoost。该算法主要包括3个步骤:首先,依据少数类高斯混合分布得到的概率模型,进行过采样构造平衡数集,扩大少数类的潜在决策域;其次,每轮训练个体分类器时,根据上一轮的错分样本综合考虑样本和特征的加权,过滤冗余噪声特征;最后,通过个体分类器的加权投票得到最终的集成分类器。8组UCI数据分类结果表明,该算法不仅有效提高了少数类的分类精度,同时还弥补了Boosting类算法对噪声特征敏感的缺陷,具有较强的鲁棒性。 展开更多
关键词 平衡数据分类 集成学习 特征选择 概率分布
下载PDF
基于AdaBoost集成加权宽度学习系统的不平衡数据分类 被引量:9
18
作者 王萌铎 续欣莹 +2 位作者 阎高伟 史丽娟 郭磊 《计算机工程》 CAS CSCD 北大核心 2022年第4期99-105,112,共8页
宽度学习系统(BLS)是一种浅层的神经网络结构,具有快速训练、增量学习等特征,在处理类别不平衡数据时提取到的少数类别特征较少,导致识别结果不理想。提出一种基于AdaBoost集成加权宽度学习系统(AdaBoost-WBLS)的不平衡数据分类方法,通... 宽度学习系统(BLS)是一种浅层的神经网络结构,具有快速训练、增量学习等特征,在处理类别不平衡数据时提取到的少数类别特征较少,导致识别结果不理想。提出一种基于AdaBoost集成加权宽度学习系统(AdaBoost-WBLS)的不平衡数据分类方法,通过迭代实现权重的动态更新,获得更符合数据特征的权重,提升集成模型对少数类的识别能力。基于KKT条件,对加权宽度学习系统的加权优化过程进行推导,验证了对角权重对BLS模型误差的抑制作用。在AdaBoost-WBLS模型集成初始化时,采用基于类别信息的初始化权值策略,使模型具有更高的集成训练效率。在集成权重更新时,不同数据类别采用不同的正则化更新方式,保留数据的类内特征并增加类间区分度。在实验过程中,对AdaBoost-WBLS模型的不同参数进行寻优,得到相关参数在有限范围内的最优取值。实验结果表明,AdaBoost-WBLS模型相比AdaBoost和BLS类相关模型能有效改善少数类别特征的提取能力,并且在Satimage数据集上相比加权过采样的深度自编码器模型的G-mean高出4.36个百分点,明显提升了不平衡数据的识别能力。 展开更多
关键词 宽度学习系统 AdaBoost模型 平衡数据 加权宽度学习系统 集成学习
下载PDF
软件缺陷预测中不平衡数据分类算法研究
19
作者 张健 姜虹 《信息技术》 2024年第12期149-158,166,共11页
针对不平衡数据导致软件缺陷预测准确率低的问题,文中提出一种多层次自适应判断合成随机过采样(AJCC-Ram)结合XGBoost集成学习的不平衡数据分类方法(简称XG-AJCC)。该模型采用AJCC-Ram方法和XGBoost方法分别进行不平衡数据预处理和数据... 针对不平衡数据导致软件缺陷预测准确率低的问题,文中提出一种多层次自适应判断合成随机过采样(AJCC-Ram)结合XGBoost集成学习的不平衡数据分类方法(简称XG-AJCC)。该模型采用AJCC-Ram方法和XGBoost方法分别进行不平衡数据预处理和数据分类,从而实现软件缺陷准确预测。实验结果表明,相较于AJCC-Ram采样方法和调参后的XGBoost方法,XG-AJCC预测模型在AEEEM和NASA数据集中的F1均值分别提升了10%和6%左右。对比其他预测模型,该模型在两个数据集中的F1均值明显更高。由此说明,该模型具备较高的分类性能和预测稳定性,能够实现不平衡数据软件缺陷的准确预测。 展开更多
关键词 AJCC-Ram XGBoost集成学习 过采样 平衡数据分类 软件缺陷预测
下载PDF
不平衡数据的集成分类算法综述 被引量:75
20
作者 李勇 刘战东 张海军 《计算机应用研究》 CSCD 北大核心 2014年第5期1287-1291,共5页
集成学习是通过集成多个基分类器共同决策的机器学习技术,通过不同的样本集训练有差异的基分类器,得到的集成分类器可以有效地提高学习效果。在基分类器的训练过程中,可以通过代价敏感技术和数据采样实现不平衡数据的处理。由于集成学... 集成学习是通过集成多个基分类器共同决策的机器学习技术,通过不同的样本集训练有差异的基分类器,得到的集成分类器可以有效地提高学习效果。在基分类器的训练过程中,可以通过代价敏感技术和数据采样实现不平衡数据的处理。由于集成学习在不平衡数据分类的优势,针对不平衡数据的集成分类算法得到广泛研究。详细分析了不平衡数据集成分类算法的研究现状,比较了现有算法的差异和各自存在的优点及问题,提出和分析了有待进一步研究的问题。 展开更多
关键词 平衡数据 集成学习 分类 代价敏感 数据采样
下载PDF
上一页 1 2 21 下一页 到第
使用帮助 返回顶部