-
题名入侵检测中基于生成对抗的不均衡数据增强方法
- 1
-
-
作者
王家瑄
王小娟
何明枢
王欣蕾
路子逵
-
机构
北京邮电大学
-
出处
《信息安全与通信保密》
2024年第12期22-34,共13页
-
基金
国家自然科学基金(62227805)。
-
文摘
针对网络流量不均衡数据集导致的机器学习分类效果差的问题,引入了生成对抗网络,提出了一种容错率高的流量字典,设计了基于生成对抗网络的多类规避生成对抗网络,可以解决使用机器学习方法进行分类检测所产生的不均衡数据集问题。该数据增强方法不仅可以生成对抗样本,还可以将训练得到的鉴别器作为分类器并对数据集进行分类。此外,对该数据增强方法在网络流量数据集上的性能进行评估,实验结果表明,对于不均衡数据集,该数据增强方法在检测性能、训练稳定性和时间复杂性方面都优于其他多个分类器。
-
关键词
数据增强
不均衡数据集
生成对抗网络
多类规避生成对抗网络
机器学习
-
Keywords
data augmentation
imbalanced data set
generative adversarial network
multi-class evasion generative adversarial network
machine learning
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名不均衡数据集上文本分类的特征选择研究
被引量:20
- 2
-
-
作者
徐燕
李锦涛
王斌
孙春明
张森
-
机构
中国科学院计算技术研究所
华北电力大学
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2007年第z2期58-62,共5页
-
基金
国家自然科学基金项目(60473002,60603094)
北京市自然科学基金项目(4051004)
-
文摘
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术.文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题.如何在不影响整体分类性能的基础上,提高稀有类别的分类效果是解决不均衡数据集问题的基本要求.从特征选择的角度出发,提出选择具有较强类别信息的词条是提高稀有类别分类性能的关键.一般而言,具有较强类别信息的词条不是高频词,甚至有倾向于稀有词的趋势.提出了解决不均衡数据集问题的一个途径--构造形如DFICF的特征选择方法.在Reuters语料上进行实验,实验结果表明该特征选择方法的效果比IG,DF都要好,特别是在微平均指标上.从而表明该方法对稀有类别的分类效果有明显的改进.
-
关键词
不均衡数据集
特征选择
文本分类
信息检索
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名不均衡数据集学习中基于初分类的过抽样算法
被引量:11
- 3
-
-
作者
韩慧
王路
温明
王文渊
-
机构
清华大学自动化系
-
出处
《计算机应用》
CSCD
北大核心
2006年第8期1894-1897,共4页
-
文摘
为了有效地提高不均衡数据集中少数类的分类性能,提出了基于初分类的过抽样算法。首先,对测试集进行初分类,以尽可能多地保留多数类的有用信息;其次,对于被初分类预测为少数类的样本进行再次分类,以有效地提高少数类的分类性能。使用美国加州大学欧文分校的数据集将基于初分类的过抽样算法与合成少数类过抽样算法、欠抽样方法进行了实验比较。结果表明,基于初分类的过抽样算法的少数类与多数类的分类性能都优于其他两种算法。
-
关键词
不均衡数据集
过抽样
欠抽样
-
Keywords
imbalanced data sets
over-sampling
under-sampling
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名不均衡数据集中基于Adaboost的过抽样算法
被引量:13
- 4
-
-
作者
韩慧
王文渊
毛炳寰
-
机构
清华大学自动化系
中央财经大学统计系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第10期207-209,共3页
-
文摘
为了提高不均衡数据集中少数类的分类性能,该文融合了提升和过抽样的优点,提出了基于提升算法Adaboost的过抽样算法MCMO-Boost,并且将其与决策树算法C4.5、提升算法Adaboost和过抽样算法SMOTE进行了实验比较与分析。结果表明,MCMO-Boost算法在少数类和数据集的总体分类性能方面都优于其它算法。
-
关键词
不均衡数据集
过抽样
提升算法
-
Keywords
Unbalanced data set
Over-sampling
Boosting algorithm
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名不均衡数据集上文本分类方法研究
被引量:11
- 5
-
-
作者
谢娜娜
房斌
吴磊
-
机构
重庆大学计算机学院
-
出处
《计算机工程与应用》
CSCD
2013年第20期118-121,共4页
-
基金
国家自然科学基金(No.61173129)
-
文摘
文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题。从特征选择优化和分类器性能提升两方面出发,提出了一种组合的不均衡数据集文本分类方法。在特征选择方面,综合考虑特征项与类别的正负相关特性及类别区分强度对传统CHI统计特征选择方法予以改进。在数据层上,采用数据重取样方法对不均衡训练语料的不平衡性过滤减少其对分类性能的影响。实验结果表明该方法对不均衡数据集上文本可达到较好分类效果。
-
关键词
特征选择
CHI统计
文本分类
不均衡数据集
重取样
-
Keywords
feature selection
CHI statistical approach
text categorization
imbalanced data
resampling
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名面向不均衡数据集的ISMOTE算法
被引量:13
- 6
-
-
作者
许丹丹
王勇
蔡立军
-
机构
西北工业大学理学院
西北工业大学计算机学院
-
出处
《计算机应用》
CSCD
北大核心
2011年第9期2399-2401,共3页
-
基金
国家自然科学基金资助项目(60873196)
-
文摘
为了提高不均衡数据集中少数类的分类性能,提出ISMOTE算法。它是在少数类实例及其最近邻少数类实例构成的n维球体内进行随机插值,从而来改进数据分布的不均衡程度。通过实际数据集上的实验,与SMOTE算法和直接分类不均衡数据算法的性能比较结果表明,ISMOTE算法具有更高的分类精度,可以有效地改进分类器的性能。
-
关键词
不均衡数据集
分类
虚拟实例
少数类过抽样算法
-
Keywords
imbalanced dataset
classification
virtual instances
Synthetic Minority Over-sampling TEchnique (SMOTE)
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于置信度代价敏感的支持向量机不均衡数据学习
被引量:8
- 7
-
-
作者
赵永彬
陈硕
刘明
曹鹏
-
机构
国网辽宁省电力有限公司信息通信分公司
中国电力财务有限公司
东北大学信息科学与工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2015年第10期177-180,185,共5页
-
基金
国家自然科学基金资助项目(61302012)
中央高校基本科研业务费专项基金资助项目(N140403004)
-
文摘
现实世界中广泛存在着很多不均衡的数据,其分类问题是机器学习领域的研究热点。为了提高不均衡数据的分类性能,提出一种基于核空间置信度的代价敏感支持向量机分类算法。通过注入类别错分代价机制,以不均衡数据评价指标作为目标函数,优化错分代价因子,提升少数类样本的识别率。计算类中所有样本在核空间下的类别置信度,从而确定样本对决策分类贡献的重要程度,降低噪音或孤立点对支持向量机的影响。通过大量UCI数据集的实验结果表明,与其他同类算法相比,该算法能更好地提高不均衡数据的分类性能。
-
关键词
机器学习
分类
不均衡数据学习
支持向量机
代价敏感学习
-
Keywords
machine learning
classification
imbalanced data learning
Support Vector Machine(SVM)
cost sensitive learning
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名面向不均衡数据集中少数类细分的过采样算法
被引量:20
- 8
-
-
作者
古平
杨炀
-
机构
重庆大学计算机学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2017年第2期241-247,共7页
-
基金
中央高校基本科研业务费专项资金项目(106112013CDJZR180014)
重庆市自然科学基金(cstc2012jjA40002)
-
文摘
在不均衡数据集中,少数类样本的分布相对于决策边界具有差异性,而传统的过抽样算法通常并未对差异性做不同处理。为此,提出一种面向不均衡数据集的过采样算法SD-ISMOTE。该算法根据少数类样本的k近邻分布将其细分为DANGER,AL_SAFE,SAFE 3个集合,DANGER和AL_SAFE中的样本更靠近决策边界。借助ISMOTE思想在n维球体内随机插值,扩大两类样本的过采样范围,同时引入轮盘赌选择算法进行采样选择,避免新生成的样本冗余。实验结果表明,SD-ISMOTE算法在C4.5和朴素贝叶斯分类器下的分类性能相较于Borderline-SMOTE和ISMOTE均有不同程度的提高,可有效解决数据集中样本分布不均衡的问题。
-
关键词
不均衡数据集
决策边界
分类
随机插值
少数类细分
-
Keywords
imbalanced data set
decision boundary
classification
random interpolation
subdivision of minority class
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于粒子群优化的不均衡数据学习
被引量:5
- 9
-
-
作者
曹鹏
李博
栗伟
赵大哲
-
机构
东北大学信息科学与工程学院
医学影像计算教育部重点实验室(东北大学)
-
出处
《计算机应用》
CSCD
北大核心
2013年第3期789-792,共4页
-
基金
国家自然科学基金资助项目(61001047)
中央高校基本科研业务费专项资金资助项目(N110618001)
-
文摘
为了提高重采样算法在不均衡数据学习的性能,提出一种基于粒子群优化的不均衡数据学习方法。通过粒子群优化,以不均衡数据分类评价准则作为目标函数,来优化重采样算法中最佳的采样率,同时对特征进行选择,从而达到最佳的数据分布。该算法在大量UCI数据集上进行了测试,与其他不均衡学习算法进行比较,结果表明该算法具有更高的分类性能;并验证了同时优化采样率和特征集合,可有效地改进不均衡数据分类效果。
-
关键词
粒子群优化
群体智能
不均衡数据分类
重采样
特征选择
-
Keywords
Particle Swarm Optimization (PSO)
swarm intelligence
imbalanced data classification
re-sampling
feature selection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名用于不均衡数据集分类的KNN算法
被引量:9
- 10
-
-
作者
孙晓燕
张化祥
计华
-
机构
山东师范大学信息科学与工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2011年第28期143-145,236,共4页
-
基金
山东省自然科学基金(No.ZR2010FM021)
山东省科技研究计划项目(No.2007ZZ17
+2 种基金
No.2008GG10001015
No.2008B0026)
山东省教育厅科研项目(No.J09LG02)
-
文摘
针对KNN在处理不均衡数据集时,少数类分类精度不高的问题,提出了一种改进的算法G-KNN。该算法对少数类样本使用交叉算子和变异算子生成部分新的少数类样本,若新生成的少数类样本到父代样本的欧几里德距离小于父代少数类之间的最大距离,则认为是有效样本,并把这类样本加入到下轮产生少数类的过程中。在UCI数据集上进行测试,实验结果表明,该方法与KNN算法中应用随机抽样相比,在提高少数类的分类精度方面取得了较好的效果。
-
关键词
不均衡数据集
K最近邻居(KNN)算法
过抽样
交叉算子
-
Keywords
imbalanced data sets
K-Nearest Neighbor (KNN) algorithm
over-sampling
crossover
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名不均衡数据集文本分类中少数类样本生成方法研究
被引量:5
- 11
-
-
作者
杜娟
姜丽丽
陈红丽
-
机构
大庆石油学院计算机与信息技术学院
大庆石油学院现代教育技术中心
-
出处
《计算机应用研究》
CSCD
北大核心
2009年第10期3731-3734,共4页
-
基金
黑龙江省研究生创新科研资金项目(YJSCX2006-38HLJ)
-
文摘
针对传统的分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大,提出了一种基于聚类和遗传算法的样本生成方法。先通过K-means算法将少数类样本聚类分组;再在每个聚类的内部使用遗传交叉和变异操作获取新样本,并进行有效性验证;最后使用原始数据集和新数据集分别训练K最近邻(Knearestneighbor,KNN)及支持向量机(supportvector machine,SVM)分类器。实验结果表明此方法有效改善了少数类分类效果。
-
关键词
不均衡数据集
分类
聚类
遗传算法
样本生成
-
Keywords
imbalanced data sets
classify
clustering
genetic algorithm
generate samples
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于密度敏感最大软间隔SVDD不均衡数据分类算法
被引量:6
- 12
-
-
作者
陶新民
李晨曦
沈微
常瑞
王若彤
刘艳超
-
机构
东北林业大学工程技术学院
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2018年第11期2725-2732,共8页
-
基金
中央高校基本科研业务费专项资金(No.2572017EB02
No.2572017CB07)
+2 种基金
东北林业大学双一流科研启动基金(No.411112438)
哈尔滨市科技局创新人才基金(No.2017RAXXJ018)
国家自然科学基金(No.31570547)
-
文摘
为了提高传统支持向量域描述(C-SVDD)算法处理不均衡数据集的分类能力,提出一种基于密度敏感最大软间隔支持向量域描述(DSMSM-SVDD)算法.该算法通过对多数类样本引入相对密度来体现训练样本原始空间分布对求解最优分类界面的影响,通过在目标函数中增加最大软间隔正则项,使C-SVDD的分类边界向少数类偏移,进而提高算法分类性能.算法首先对每个多数类样本计算相对密度来反映样本的重要性,然后将训练样本输入到DSMSM-SVDD中实现数据分类.实验部分,讨论了算法参数间的关系及其对算法分类性能的影响,给出算法参数取值建议.最后通过与C-SVDD的对比实验,表明本文建议的算法在不均衡数据情况下的分类性能优于C-SVDD算法.
-
关键词
支持向量域数据描述
不均衡数据
相对密度
-
Keywords
support vector domain description
unbalanced datasets
relative density
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名用于不均衡数据集的挖掘方法
被引量:5
- 13
-
-
作者
赵凤英
王崇骏
陈世福
-
机构
南京大学计算机软件新技术国家重点实验室
南京大学计算机科学与技术系
-
出处
《计算机科学》
CSCD
北大核心
2007年第9期139-141,共3页
-
基金
国家自然科学基金(No.60503021)
江苏省自然科学基金(No.BK2005075)
江苏省高技术研究计划(No.BG2006027)的资助
-
文摘
传统的分类算法大多是基于数据集中各类的样本数是基本均衡的假设的,而实际应用场合中面临的往往是不均衡数据。针对不均衡数据集,利用传统的分类方法往往不能获得良好的性能,因而研究用于处理不均衡数据集的分类方法就显得相当重要,本文对相关的研究做了综述。
-
关键词
不均衡数据集
过取样
欠取样
代价敏感学习
-
Keywords
Imbalance data set, Over-sampling,Under-sampling Cost-sensitive learning
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于BSMOTE和逆转欠抽样的不均衡数据分类算法
被引量:4
- 14
-
-
作者
陈睿
张亮
杨静
胡荣贵
-
机构
解放军电子工程学院网络系
-
出处
《计算机应用研究》
CSCD
北大核心
2014年第11期3299-3303,共5页
-
基金
国家自然科学基金资助项目(61004069)
安徽省自然科学基金资助项目(1208085QF107)
-
文摘
针对传统分类器在数据不均衡的情况下分类效果不理想的缺陷,为提高分类器在不均衡数据集下的分类性能,特别是少数类样本的分类能力,提出了一种基于BSMOTE和逆转欠抽样的不均衡数据分类算法。该算法使用BSMOTE进行过抽样,人工增加少数类样本的数量,然后通过优先去除样本中的冗余和噪声样本,使用逆转欠抽样方法逆转少数类样本和多数类样本的比例。通过多次进行上述抽样形成多个训练集合,使用Bagging方法集成在多个训练集合上获得的分类器来提高有效信息的利用率。实验表明,该算法较几种现有算法不仅能够提高少数类样本的分类性能,而且能够有效提高整体分类准确度。
-
关键词
不均衡数据集
边界少数类样本合成过抽样技术
逆转欠抽样技术
多分类器集成
-
Keywords
imbalanced dataset
BSMOTE
inverse under sampling
multiple classifier ensemble
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向不均衡数据集的ARSGOS算法
被引量:3
- 15
-
-
作者
曹鹏
栗伟
赵大哲
-
机构
东北大学信息科学与工程学院
东北大学医学影像计算教育部重点实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2014年第4期818-823,共6页
-
基金
国家自然科学基金项目(61001047)资助
中央高校基本科研业务费专项资金项目(N110618001)资助
-
文摘
现实世界中广泛存在着类别分布不均衡的数据,其分类问题已成为数据挖掘领域中的研究热点.提出一种基于高斯混合模型,并结合自适应随机子空间的升采样算法(ARSGOS).该算法使用随机子空间的思想,在不同的子空间下对少数类的样本空间使用高斯混合模型进行参数估计,并根据估计的概率密度函数构造少数类样本数据,从而使新样本数据更加准确真实,避免了噪音数据的生成.该算法通过引入数据子集交叠率,增强数据采样和分类器学习的差异性,提升了在不均衡数据空间下少数类样本的识别能力.通过大量UCI数据集验证,并采用不同的基分类器,与其他常用的重采样算法进行比较.实验结果表明ARSGOS算法有效地提高了少数类的识别率以及整体的分类性能.
-
关键词
不均衡数据分类
升采样
随机子空间
高斯混合模型
-
Keywords
imbalanced data classification
over-sampling
random subspace method
gaussian mixture model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名不均衡数据混合取样分类算法
被引量:6
- 16
-
-
作者
杜红乐
张燕
-
机构
商洛学院数学与计算机应用学院
-
出处
《燕山大学学报》
CAS
北大核心
2015年第2期158-164,共7页
-
基金
陕西省自然科学基金资助项目(2014JM2-6122)
陕西省教育厅科技计划资助项目(12JK0748)
商洛学院科学与技术研究项目(13sky024)
-
文摘
针对不均衡数据分类决策面偏移导致少数类识别率较低的问题,提出一种混合取样算法.首先计算类样本数的比值K;然后分别在多数类和少数类中随机选取一个样本,计算该样本的K-1近邻,以K个样本的中心作为新样本;再对剩余的样本重复上面操作,直到所有样本都被处理;最后所得新样本与原少数类样本共同构成新的训练集.该算法在改变样本密度的同时保持了原样本的空间分布,实验结果表明该算法能够提高SVM在不均衡数据下的分类性能,尤其是少数类的分类性能.
-
关键词
支持向量机
过取样
不均衡数据集
欠取样
K
近邻
-
Keywords
support vector machine
over-sampling
imbalanced dataset
under-sampling
K-nearest neighbor
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名不均衡数据集下基于SVM的托攻击检测方法
被引量:5
- 17
-
-
作者
吕成戍
王维国
-
机构
东北财经大学管理科学与工程学院
东北财经大学数学与数量经济学院
-
出处
《计算机工程》
CAS
CSCD
2013年第5期132-135,共4页
-
基金
辽宁省社会科学规划基金资助项目(L10BJL026)
-
文摘
传统支持向量机(SVM)方法在数据不均衡情况下无法有效实现托攻击检测。在研究SVM的基础上,提出一种基于欠采样和代价敏感SVM相结合的托攻击检测方法。利用边界样本修剪技术实现训练样本的均衡,在消除部分多数类样本显著减小数据不均衡程度的同时,保证信息损失最小。结合受试者工作特征分析技术,利用代价敏感SVM对重构后的样本集进行训练,在限定范围内自动搜索最优参数,进而调节阈值获得系统决策函数。实验结果表明,该方法能提高托攻击的检测精度。
-
关键词
攻击检测
不均衡数据集
代价敏感学习
欠采样
支持向量机
接收机工作特性分析
-
Keywords
attack detection
unbalanced dataset
cost-sensitive learning
under-sampling
Support Vector Machine(SVM)
Receiver Operating Characteristic(ROC) analysis
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名不均衡数据在股票研报分类中的应用
被引量:2
- 18
-
-
作者
彭敏
张凯
朱佳晖
-
机构
武汉大学计算机学院
-
出处
《计算机应用研究》
CSCD
北大核心
2017年第3期769-772,780,共5页
-
基金
国家自然科学基金青年项目(164659)
-
文摘
股票研报是由金融行业分析师对股票相关新闻作出的分析和评价,它从专业角度分析此类新闻是否会对某股票的未来走势产生影响,并提出专业投资建议,往往比论坛分析更具权威性。然而,各类别研报数量之间的严重不均衡性致使常规的SVM分类效果较差。为提高分类效果,提出一种新的不均衡数据分类方法。在文本特征项选择方面采用组合特征思想以选择更具语义信息的特征短语,并改进CHI统计以提高对少数类样本特征项的选择,然后设计一个基于SVM聚类的边界自适应层次欠采样算法对多数类样本进行层次欠采样。实验结果表明,该方法能够在不影响多数类分类的基础上对少数类的分类效果有较为明显的提升。
-
关键词
不均衡数据
股票研报
CHI统计
SVM算法
层次欠采样
-
Keywords
imbalance data
stock research report
CHI statistics
SVM
hierarchical under-sampling
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于决策准则优化的不均衡数据分类
被引量:2
- 19
-
-
作者
曹鹏
栗伟
赵大哲
-
机构
东北大学信息科学与工程学院
东北大学医学影像计算教育部重点实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2014年第5期961-966,共6页
-
基金
国家自然科学基金项目(61001047)资助
中央高校基本科研业务费专项资金项目(N110618001)资助
-
文摘
现实世界中广泛存在着类别分布不均衡的数据,而传统分类算法在数据失衡的情况下分类效果很不理想,为此提出一种基于决策准则优化的组合分类算法.该算法基于朴素贝叶斯模型输出的后验概率,以不均衡数据评价指标作为目标函数,对决策阈值(二类)或错分代价参数(多类)进行优化,得到最佳的分类决策准则;同时为了提高分类的泛化性,提出一种自适应随机子空间组合分类算法,增强基分类器之间的差异性,避免分类器学习和决策准则优化的过拟合,并可自动获得基分类器的最佳数量.通过大量UCI数据集的实验验证表明,与其它同类算法相比,该算法在精度和效率上都具有更好的处理不均衡数据的优势.
-
关键词
不均衡数据分类
代价敏感学习
组合分类
随机子空间
-
Keywords
imbalanced data classification
cost sensitive learning
ensemble classification
random subspace method
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种适用于不均衡数据集分类的KNN算法
被引量:5
- 20
-
-
作者
杜娟
刘志刚
衣治安
-
机构
东北石油大学计算机与信息技术学院
-
出处
《科学技术与工程》
2011年第12期2680-2685,共6页
-
基金
黑龙江省研究生创新科研资金项目(YJSCX2006-38HLJ)资助
-
文摘
传统的K-最邻近(K Nearest Neighbor,KNN)分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大。针对此问题从数据层的角度改进了传统的KNN算法。先通过K-means聚类算法将少数类样本聚类分组,将每个聚类内的样本作为遗传算法的初始种群;再使用遗传交叉和变异操作获取新样本,并进行有效性验证。最终获取到各类别样本数量基本均衡的训练样本集合。实验结果表明此方法有效改善了KNN算法对少数类分类效果。此法同时适用于其他关注少数类分类精度的不均衡数据集分类问题。
-
关键词
KNN
上采样
不均衡数据集
聚类
遗传交叉
遗传变异
-
Keywords
KNN up-sampling imbalanced data sets clustering genetic crossover genetic mutation
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-