用于不均衡数据集分类的KNN算法被引量：9

Improved KNN algorithm in classification of imbalanced data sets

下载PDF

导出

摘要针对KNN在处理不均衡数据集时,少数类分类精度不高的问题,提出了一种改进的算法G-KNN。该算法对少数类样本使用交叉算子和变异算子生成部分新的少数类样本,若新生成的少数类样本到父代样本的欧几里德距离小于父代少数类之间的最大距离,则认为是有效样本,并把这类样本加入到下轮产生少数类的过程中。在UCI数据集上进行测试,实验结果表明,该方法与KNN算法中应用随机抽样相比,在提高少数类的分类精度方面取得了较好的效果。 When the KNN algorithm is used to deal with imbalanced data sets, it has poor performance in the minority class prediction accuracy.An improved algorithm（G-KNN） is proposed to solve this problem.For the minority class samples, this algorithm uses the crossover operator and mutation operator to generate some of the new minority class samples.One new sample is considered valid, only if its Euclidean distance to parent is less than the maximum distance between parents. Then this valid sample is used to product the minority class samples in the next round of the process.The exper/mental results,which are tested on the UCI data sets,show that this algorithm is superior to KNN algorithm in the application of random over-sampling in improving the classification accuracy of the minority class.

作者孙晓燕张化祥计华

机构地区山东师范大学信息科学与工程学院

出处《计算机工程与应用》 CSCD 北大核心 2011年第28期143-145,236,共4页 Computer Engineering and Applications

基金山东省自然科学基金(No.ZR2010FM021) 山东省科技研究计划项目(No.2007ZZ17 No.2008GG10001015 No.2008B0026) 山东省教育厅科研项目(No.J09LG02)

关键词不均衡数据集 K最近邻居(KNN)算法过抽样交叉算子 imbalanced data sets K-Nearest Neighbor （KNN） algorithm over-sampling crossover

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1Weiss G M.Mining with rarity: a unifying framework[J].SIGKDD Explorations,2004,6( 1 ) :7-19.
2Ciraco M,Rogalewski M, Weiss G M.Improving classifier utility by altering the misclassification cost ration[C]//Proc of the Ist International Workshop on Utility-based Data Mining.New York: ACM, 2005 : 46-52.
3Fan W, Stolfo S J, Zhang J, et al.AdaCost: misclassication cost-sensitive boosting[C]//Proc of the 16th International Conference on Machine Leaming.[S.l.]:Morgan Kaufmanm, 1999:97-105.
4Manevitz L M,Yousef M.One-class SVMs for document classification[J].Joumal of Machine Learning Research,2001,2(2) : 139-154.
5Kubat M, Matwin S.Addressing the course of imbalanced training sets: one-sided selection[C]//Proc of the 14th International Conference on Machine Learning, San Francisco, CA, 1997:179-186.
6Chawla N V,Bowyer K W,Hall L O,et al.SMOTE:synthetic minority over-sampling technique[J].Journal of Artificial Intelligence and Research, 2002: 321-357.
7Dasarathy B V.Nearest Neighbor(NN)norms:NN pattern classification techniques[M].Los Alamitos, California: IEEE Computer Society Press, 1991.
8Joshi M V.On evaluating performance of classifiers for rare classes[C]//Proc of the 2nd IEEE International Conference on Data Mining, Maebashi, Japan, 2002: 641-644.
9Mitchel TM．机器学习[M]．曾华军，张银奎译．北京：机械工业出版社，2003．
10王小平曹立明.遗传算法-理论、应用与软件实现[M].西安:西安交通大学出版社,2003..

<12 >

二级参考文献19

1韩慧,王路,温明,王文渊.不均衡数据集学习中基于初分类的过抽样算法[J].计算机应用,2006,26(8):1894-1897. 被引量：11
2张莉,陈恭和.入侵检测系统中训练样本集的构造方法[J].计算机工程与应用,2006,42(28):145-146. 被引量：6
3吴洪兴,彭宇,彭喜元.适用于不平衡样本数据处理的支持向量机方法[J].电子学报,2006,34(B12):2395-2398. 被引量：17
4陶晓燕,姬红兵,马志强.基于样本分布不平衡的近似支持向量机[J].计算机科学,2007,34(5):174-176. 被引量：10
5PROVOST F. Machine learning from imbalanced data sets [ C ]//Proc of the 17th Nat Conf AAAI, Workshop on Imbalanced Data Sets. Austin: TX,2000:71-73.
6MALOOF M A,LANGLEY P,BINFORD T O,et al. Improved rooftop detection in aerial images with machine learning [J]. Machine Learning ,2003,53 ( 1 ) : 157-191.
7CHAWLA N, BOWYER K, HALL L,et al. Smote: synthetic minority over sampling technique [ J ]. Artificial Intelligence Research,2002 (16) :321-356.
8WRIGHT A H. Genetic algorithms for real parameter optimization, foundations of genetic algorithms [ M ]. CA : Morgan Kaufmann, 1991 : 205-218.
9De JONG K A. An analysis of the be havior of a class of genetic adaptive systems [ D ]. Ann Arbot, MI : University of Michigan, 1975:266.
10WEISS GM.Mining with rarity:A unifying framework[J].Chicago,IL,USA,SIGKDD Explorations,2004,6(1):7-19.

<12 >

共引文献58

1李亚芬,张剑锋.汽驱工业过程优化监控系统设计[J].计算机测量与控制,2005,13(5):440-442.
2肖启莉,奚李峰.遗传算法在Sierpinski地毯Hausdorff测度计算中的研究与应用[J].计算机应用与软件,2005,22(7):12-13.
3张玉才,沈元隆.遗传算法在计算机系统优化问题中的应用[J].西安邮电学院学报,2005,10(1):76-78. 被引量：1
4沈建锋,许诚,陈峰.遗传算法在反舰导弹航路规划中的应用[J].飞行力学,2005,23(3):52-55. 被引量：18
5王燕飞,张振山,张萌.遗传算法在自航式鱼雷发射管长度优化中的应用[J].鱼雷技术,2005,13(3):21-24. 被引量：4
6任子武,伞冶.自适应遗传算法的改进及在系统辨识中应用研究[J].系统仿真学报,2006,18(1):41-43. 被引量：169
7杨学星,丁海军.基于模拟退火算法和遗传算法的图像降噪研究[J].计算机工程与应用,2006,42(4):79-80. 被引量：2
8车娟,袁艳,张泰山,申群太.人工气候室照度神经网络控制系统的研究[J].计算技术与自动化,2006,25(1):26-28. 被引量：1
9陈华华,郭晔,杜歆,顾伟康.基于改进型遗传算法的动态避障路径规划方法[J].传感技术学报,2006,19(2):520-524. 被引量：11
10桑海峰,王福利,何大阔,张大鹏.基于最小二乘支持向量机的发酵过程混合建模[J].仪器仪表学报,2006,27(6):629-633. 被引量：15

<12 3 4 5 6 >

同被引文献78

1张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：99
2张英,苏宏业,褚健.基于模糊最小二乘支持向量机的软测量建模[J].控制与决策,2005,20(6):621-624. 被引量：27
3韩慧,王路,温明,王文渊.不均衡数据集学习中基于初分类的过抽样算法[J].计算机应用,2006,26(8):1894-1897. 被引量：11
4陈爱军,宋执环,李平.基于矢量基学习的最小二乘支持向量机建模[J].控制理论与应用,2007,24(1):1-5. 被引量：21
5VapnikVN.统计学习理论的本质[M].北京：清华大学出版社,2000..
6PROBOST F. Machine learning from imbalanced data sets 101 [C] I I Proc of AAAI Workshop on Imbalanced Data Sets. 2000.
7CHAWLA N V, JAPKOWICZ N, KOTCA A. Editorial: special issue on learning from imbalanced data sets [ J]. SIGKDD Explorations, 2004,6(1) :1-6.
8CHEN Lei-chen, CAl Zhi-hua, CHEN Lu, et al. A novel differential evolution-clustering hybrid resampling algorithm on imbalanced datasets [ C ] IIProc of the 3 rd International Conference on Knowledge Discovery and Data Mining. 2010: 81- 85.
9CHAWLA N V, BOWYER K W, HALL L 0, et al. SMOTE: synthetic minority over-sampling technique [J]. Journal of Articial Intelligence Research ,2002 ,16(1) :321-357.
10HAN Hui,WANG Wen-yuan, MAO Bing-huan. Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning [ C ] II Lecture Notes in Computer Science, vol 3644. Berlin: Springer-Verlag,2oo5:878-887.

<12 3 4 5…8 >

引证文献9

1李江,金辉,刘伟.基于分形SMOTE重采样集成算法圈定区域化探异常[J].计算机应用研究,2012,29(10):3744-3747. 被引量：4
2景永霞,苟和平,冯百明,李勇.不均衡数据集中KNN分类器样本裁剪算法[J].科学技术与工程,2013,21(16):4720-4723. 被引量：2
3王婧瑶,许勇,曹本希,杨军.基于主成分分析的超声人脸识别算法研究[J].计算机工程与设计,2013,34(8):2867-2871. 被引量：8
4郁春江.基于特征选择的KNN算法在煤炭勘查工作中的应用[J].煤炭技术,2013,32(12):130-131. 被引量：1
5孙政,潘丰.基于密度的稀疏最小二乘支持向量机[J].江南大学学报（自然科学版）,2014,13(5):531-535.
6陈丽君,朱永忠,王方磊.简单子抽样多元双样本检验的改进方法[J].江南大学学报（自然科学版）,2015,14(5):652-658.
7桂州,陈建国,王成彬.基于PCA-SMOTE-随机森林的地质不平衡数据分类方法——以东天山地球化学数据为例[J].桂林理工大学学报,2017,37(4):587-593. 被引量：7
8卢光跃,王航龙,李创创,赵宇翔,李四维.基于改进的K近邻和支持向量机客户流失预测[J].西安邮电大学学报,2018,23(2):1-6. 被引量：7
9黄勇,魏乐.一种针对不均衡数据集的SVM决策树算法[J].成都信息工程大学学报,2019,34(3):274-277. 被引量：2

二级引证文献31

1梁东,石英,谢长君,刘红丽,孙宇峰.引入权重分布RBO的CVT不平衡样本过采样算法[J].武汉理工大学学报,2021,43(5):92-98. 被引量：1
2李勋,万鸣华.一种基于核最大间距准则的(KMMC)人脸识别系统[J].南昌航空大学学报（自然科学版）,2013,27(3):37-43.
3王成,郭飞,赖雄鸣,郑黎晓.典型代数统计的人脸特征提取融合[J].小型微型计算机系统,2014,35(7):1662-1666. 被引量：1
4刘宁,梁志贞.基于Lp范数的样本对加权的人脸识别[J].计算机工程与设计,2014,35(7):2504-2508. 被引量：2
5朱兴统,习洋洋.基于C++和OpenCV的人脸识别系统的设计与实现[J].自动化与仪器仪表,2014(8):127-128. 被引量：18
6李湘东,曹环,黄莉.基于分布偏斜训练集的特征选择方法研究[J].情报理论与实践,2015,38(4):139-144. 被引量：2
7闵行,褚晶辉,吕卫.组合降采样极限学习机[J].信息技术,2015,39(11):159-162.
8薛又岷,严玉萍,古嘉玲,包晓蓉.两种基于K近邻特征选择算法的对比分析[J].电子设计工程,2016,24(1):19-22. 被引量：7
9成亚玲,谭爱平,张敏.混合多距离图像的线性判别分析人脸识别算法[J].系统仿真学报,2016,28(9):2254-2259. 被引量：9
10武森,刘露,卢丹.基于聚类欠采样的集成不均衡数据分类算法[J].工程科学学报,2017,39(8):1244-1253. 被引量：12

<12 3 4 >

1刘畅,孙德山.模糊支持向量机隶属度的确定方法[J].计算机工程与应用,2008,44(11):41-42. 被引量：13
2张翔,肖小玲,徐光祐.基于样本之间紧密度的模糊支持向量机方法[J].软件学报,2006,17(5):951-958. 被引量：84
3黄颖,李伟,李康顺.一种基于小生境的模糊支持向量机新算法[J].四川大学学报（自然科学版）,2010,47(4):735-740.
4顾成杰,张顺颐,黄河,孙雁飞.一种具有特征有效度的模糊支持向量机[J].南京邮电大学学报（自然科学版）,2011,31(3):50-54.
5曹伟杰,童牧,唐明浩.一种结合人工免疫的粒子滤波目标跟踪算法[J].计算机工程与应用,2011,47(28):195-197. 被引量：5
6夏秀峰,谢光宇,石祥滨,徐蕾.基于置信区间的偏离群数据检测方法[J].计算机工程,2008,34(21):12-14. 被引量：3
7张秋余,竭洋,李凯.基于模糊支持向量机与决策树的文本分类器[J].计算机应用,2008,28(12):3227-3230. 被引量：5
8农海啸,李生华.一种针对道路潜在安全隐患的跟踪学习方法[J].广西民族师范学院学报,2012,29(3):46-49.
9张立,王飚,李裄.2004年电子出版单位年检数据分析[J].出版发行研究,2005(10):19-22.
10彩色商务需求拉动彩激购买[J].中国计算机用户,2005(34):30-30.

<12 >

计算机工程与应用

2011年第28期

用于不均衡数据集分类的KNN算法被引量：9

参考文献12

二级参考文献19

共引文献58

同被引文献78

引证文献9

二级引证文献31

相关作者

相关机构

相关主题

用于不均衡数据集分类的KNN算法 被引量：9

参考文献12

二级参考文献19

共引文献58

同被引文献78

引证文献9

二级引证文献31

相关作者

相关机构

相关主题

微信扫一扫：分享

用于不均衡数据集分类的KNN算法被引量：9