基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法被引量：18

Classification method for imbalance dataset based on genetic algorithm improved synthetic minority over-sampling technique

下载PDF

导出

摘要针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法——GASMOTE。首先,为少数类的不同样本设置不同的采样倍率,并将这些采样倍率取值的组合编码为种群中的个体;然后,循环使用GA的选择、交叉、变异等算子对种群进行优化,在达到停机条件时获得采样倍率取值的最优组合;最后,根据找到的最优组合对非平衡数据集进行SMOTE采样。在10个典型的非平衡数据集上进行的实验结果表明:与SMOTE算法相比,GASMOTE在F-measure值上提高了5.9个百分点,在G-mean值上提高了1.6个百分点;与Borderline-SMOTE算法相比,GASMOTE在F-measure值上提高了3.7个百分点,在G-mean值上提高了2.3个百分点。该方法可作为一种新的解决非平衡数据集分类问题的过采样技术。 When the Synthetic Minority Over-sampling Technique（ SMOTE） is used in imbalance dataset classification,it sets the same sampling rate for all the samples of minority class in the process of synthetising new samples, which has blindness. To overcome this problem, a Genetic Algorithm（ GA） improved SMOTE algorithm, namely GASMOTE（ Genetic Algorithm Improved Synthetic Minority Over-sampling Technique） was proposed. At the beginning, GASMOTE set different sampling rates for different minority class samples. One combination of the sampling rates corresponded to one individual in the population. And then, the selection, crossover and mutation operators of GA were iteratively applied on the population to get the best combination of sampling rates when the stopping criteria were met. At last, the best combination of sampling rates was used in SMOTE to synthetise new samples. The experimental results on ten typical imbalance datasets show that, compared with SMOTE algorithm, GASMOTE can increase 5. 9 percentage on F-measure value and 1. 6 percentage on G-mean value,and compared with Borderline-SMOTE algorithm, GASMOTE can increase 3. 7 percentage on F-measure value and 2. 3percentage on G-mean value. GASMOTE can be used as a new over-sampling technique to deal with imbalance dataset classification problem.

作者霍玉丹谷琼蔡之华袁磊

机构地区湖北文理学院数学与计算机科学学院中国地质大学计算机学院西南大学逻辑与智能研究中心

出处《计算机应用》 CSCD 北大核心 2015年第1期121-124,139,共5页 journal of Computer Applications

基金国家自然科学基金资助项目(61075063) 湖北省自然科学基金资助项目(2013CFA004) 中国博士后科学基金面上资助项目(2014M560700) 重庆博士后特别资助项目(XM2014057)

关键词非平衡数据集分类少数类样本合成过采样技术采样倍率遗传算法 imbalance dataset classification Synthetic Minority Over-sampling Technique（SMOTE） sampling rate Genetic Algorithm（GA）

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献13

1SODA P. A multi-objective optimisation approach for class imbal- ance learning [ J]. Pattern Recognition, 2011, 44 (8) : 1801 - 1810.
2HE H, GARCIA E A. Learning from imbalanced data [ J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 21 (9): 1263 - 1284.
3谷琼,袁磊,熊启军,宁彬,李文新.基于非均衡数据集的代价敏感学习算法比较研究[J].微电子学与计算机,2011,28(8):146-149. 被引量：30
4王超学,潘正茂,董丽丽,马春森,张星.基于改进SMOTE的非平衡数据集分类研究[J].计算机工程与应用,2013,49(2):184-187. 被引量：19
5CHAWLA N, BOWYER K, HALL L, et al. SMOTE: synthetic mi- nority over-sampling technique [ J]. Journal of Artificial Intelligence Research, 2002, 16(1) : 321 -357.
6HAN H, WANG W, MAO B. Borderline-SMOTE: a new over-sam- piing method in imbalance data set learning [ C]// ICIC'05: Pro- ceedings of the 2005 International Conference on Advances in Intelli- gent Computing. Berlin: Springer, 2005:878-887.
7GUO H, VIKTOR H L. Learning from imbalance data set with boos- ting and data generation: the DataBoost-IM approach [ J]. ACM SIGKDD Explorations Newsletter, 2004, 6( 1): 30-39.
8陈思,郭躬德,陈黎飞.基于聚类融合的不平衡数据分类方法[J].模式识别与人工智能,2010,23(6):772-780. 被引量：28
9葛继科,邱玉辉,吴春明,蒲国林.遗传算法研究综述[J].计算机应用研究,2008,25(10):2911-2916. 被引量：409
10SU C, CHEN L, YIH Y. Knowledge acquisition through informa- tion granulation for imbalanced data [ J]. Expert Systems with Ap- plications, 2006, 31(3): 531-541.

二级参考文献95

1承向军,贺振欢,杨肇夏.基于遗传算法的交通信号机器学习控制方法[J].系统工程理论与实践,2004,24(8):130-135. 被引量：13
2王洪燕,杨敬安.并行遗传算法研究进展[J].计算机科学,1999,26(6):48-53. 被引量：14
3王静莲,刘弘,李少辉.基于决策树的遗传算法在数据挖掘领域的应用[J].计算机工程与应用,2005,41(28):153-155. 被引量：5
4赵应丁,刘金刚.基于遗传算法的指纹图像二值化算法研究[J].计算机工程,2006,32(7):169-171. 被引量：12
5虞蕾,赵红,赵宗涛.一种基于遗传算法的航迹优化方法[J].西北大学学报（自然科学版）,2006,36(2):205-208. 被引量：9
6王建锋,吴庆标.分层遗传算法实现图像边缘检测[J].计算机工程与应用,2006,42(14):95-96. 被引量：9
7王科俊,徐晶,王磊,张燕.基于可拓遗传算法的机器人路径规划[J].哈尔滨工业大学学报,2006,38(7):1135-1138. 被引量：10
8饶运清,严治雄,张超勇,黄刚.一种混合遗传算法在车间作业调度中的应用研究[J].机械科学与技术,2006,25(5):584-587. 被引量：9
9黄冀卓,王湛,马人乐.一种新的求解约束多目标优化问题的遗传算法[J].计算机工程与应用,2006,42(23):47-51. 被引量：24
10李素粉,朱云龙.流水车间作业提前/拖期调度问题研究[J].计算机集成制造系统,2006,12(8):1235-1240. 被引量：10

共引文献536

1杨晓娇,于忠,冮军.智慧工地中的图像传感技术的应用进展[J].四川建筑,2021,41(S01):41-44.
2王建龙,张长鹤,席广朋.基于多目标遗传算法的城市内涝调蓄池规模优化方法研究[J].环境工程,2023,41(6):166-173. 被引量：1
3江军强.基于遗传算法的信息技术类课程自动组卷应用研究[J].大庆师范学院学报,2013,33(3):152-156. 被引量：2
4杨水生,张建海.无线传感网络覆盖优化模型[J].杭州电子科技大学学报（自然科学版）,2010,30(3):38-41. 被引量：3
5倪春波,孔一斐,杨月全,曹志强,张天平.粒子群优化及其在多机器人系统中的应用展望[J].中南大学学报（自然科学版）,2013,44(S2):126-132. 被引量：3
6陈侨.航空机组乘务员自动排班系统中的算法应用[J].电脑与电信,2009(7):57-59.
7唐天兵,谢祥宏,申文杰,韦凌云,严毅.多核CPU环境下的并行遗传算法的研究[J].广西大学学报（自然科学版）,2009,34(4):546-550. 被引量：7
8刘永.基于Fisher准则的自适应图像分割算法[J].系统仿真技术,2009,5(3):161-165. 被引量：1
9方必和,于蕾蕾.基于淘汰机制的双种群遗传算法[J].计算机技术与发展,2009,19(9):101-103. 被引量：6
10夏虎,庄健,王立忠,于德弘.一种考虑环境作用的协同免疫遗传算法[J].西安交通大学学报,2009,43(11):80-84. 被引量：4

同被引文献152

1王凯,张少杰,马娟,杨红娟,刘敦龙,杨超平.大数据环境下滑坡宏观位移阶段空间分布规律及预警判据研究[J].地球科学进展,2022,37(10):1054-1065. 被引量：3
2凌晓峰,SHENG Victor S..代价敏感分类器的比较研究(英文)[J].计算机学报,2007,30(8):1203-1212. 被引量：35
3彭博,洪永潮,杜森森,韦巍.乒乓球机器人击打点的预测方法[J].江南大学学报（自然科学版）,2007,6(4):433-437. 被引量：14
4陈明金,欧阳祖熙,范国胜.基于数据融合的滑坡综合监测信息提取方法[J].大地测量与地球动力学,2007,27(6):77-81. 被引量：11
5Joo Daejoon,Hong Taeho,Han Ingoo.The neural networkmodels for IDS based on the asymmetric costs of falsenegative errors and false positive errors[J].Expert Systemswith Applications,2009:69-75.
6López V,del Río S,Benítez J M,et al.Cost-sensitivelinguistic fuzzy rule based classification systems underthe MapReduce framework for imbalanced big data[J].Fuzzy Sets and Systems,2015,258:5-38.
7Aslantas V,Dogru M.A new SVD based fragile imagewatermarking by using genetic algorithm[C].Sixth InternationalConference on Graphic and Image Processing(ICGIP 2014),2015.
8Wu Tianfu,Zhu Songchun.Learning near-optimal costsensitivedecision policy for object detection[J].PatternAnalysis and Machine,2015,37(5):1013-1027.
9ABDI L, HASHEMI S. To combat multi-class imbalanced problems by means of over-sampling and boosting techniques [J]. Soft Computing, 2015, 19(12): 3369-3385.
10VERBIEST N, RAMENTOL E, CORNELIS C, et al. Preprocessing noisy imbalanced datasets using SMOTE enhanced with fuzzy rough prototype selection [J]. Applied Soft Computing, 2014, 22(5): 511-517.

引证文献18

1张文喜.对哈耶克“自由与责任”思想的一种阐释[J].学术研究,2000(5):49-55. 被引量：9
2靳燕,彭新光.多子域隔离学习组合决策用于不均衡样本[J].计算机应用,2016,36(9):2475-2480. 被引量：2
3刘云,向婵.基于虚构理论对不平衡数据集中少数类关联规则挖掘的研究[J].云南大学学报（自然科学版）,2017,39(1):33-38. 被引量：9
4石红姣.基于改进随机决策树算法的分布式数据挖掘[J].计算机与数字工程,2017,45(9):1802-1808. 被引量：5
5靳燕.成本引导学习的少数类分类算法设计[J].太原师范学院学报（自然科学版）,2017,16(4):31-35.
6张巡,黎平,刘萍.基于遗传算法的一种不平衡数据集采样方法GSA[J].贵州科学,2018,36(2):93-96. 被引量：3
7沈学利,覃淑娟.基于SMOTE和深度信念网络的异常检测[J].计算机应用,2018,38(7):1941-1945. 被引量：20
8徐新爱.非平衡光纤传感数据集类间数据重合的识别与分离算法[J].激光杂志,2018,39(11):120-125.
9靳燕,彭新光.折中规划分类性能的少数类误分代价优化设计[J].计算机工程与应用,2016,52(16):51-55. 被引量：4
10刘丹,王晓兰,邢胜.面向不平衡数据分类的最近邻三角区域合成少数类过采样技术[J].科学技术与工程,2018,18(28):215-219. 被引量：4

二级引证文献87

1刘汉龙,马彦彬,仉文岗.大数据技术在地质灾害防治中的应用综述[J].防灾减灾工程学报,2021,41(4):710-722. 被引量：22
2宋冰,付永平.作物育种学各论“拼盘式”教学模式的实践和探索[J].才智,2019(35):96-97. 被引量：3
3刘晓欣.自由主义政治哲学研究综述[J].中共郑州市委党校学报,2009(3):46-48. 被引量：1
4吴剑.近年来国内自由主义问题研究综述[J].杭州师范学院学报（社会科学版）,2005,27(3):98-103.
5蒲至恩,牛应泽,郭世星,石海春,李伟.作物育种学“拼盘式”教学模式的实践和探索[J].沈阳农业大学学报（社会科学版）,2009,11(4):453-456. 被引量：13
6陈坤华.试论大学教学自由中的教师责任[J].交通高教研究,2002(2):77-79. 被引量：4
7靳燕,姚悦.Boosting方法在网络攻击分类中的性能分析[J].网络空间安全,2016,7(6):25-28. 被引量：2
8靳燕.ARP攻击实验仿真及防范技术分析[J].网络安全技术与应用,2016(7):29-30. 被引量：4
9靳燕.成本引导学习的少数类分类算法设计[J].太原师范学院学报（自然科学版）,2017,16(4):31-35.
10刘云,黄亚飞.扩展算法在频繁行为模式分析中的优化研究[J].云南大学学报（自然科学版）,2018,40(2):236-242. 被引量：1

1张永,李卓然,刘小丹.基于主动学习SMOTE的非均衡数据分类[J].计算机应用与软件,2012,29(3):91-93. 被引量：23
2王超学,张涛,马春森.面向不平衡数据集的改进型SMOTE算法[J].计算机科学与探索,2014,8(6):727-734. 被引量：24
3曹路,王鹏.基于SMOTE采样和支持向量机的不平衡数据分类[J].五邑大学学报（自然科学版）,2015,29(4):27-31. 被引量：2
4赵煜,邵必林,边根庆,宋丹.面向不平衡微博数据集的转发行为预测方法[J].计算机应用,2015,35(7):1959-1964. 被引量：2
5朱明,陶新民.基于随机下采样和SMOTE的不均衡SVM分类算法[J].信息技术,2012,36(1):39-43. 被引量：12
6张成刚,宋佳智,姜静清,裴志利.一种改进的降噪自编码神经网络不平衡数据分类算法[J].计算机应用研究,2017,34(5):1329-1332. 被引量：16
7厍向阳,薛惠锋.基于连续属性分类规则挖掘的新算法研究[J].计算机工程,2005,31(18):28-30. 被引量：1
8杨小明.组合编码对连线地物语言描述的规范[J].江淮水利科技,2008(4):44-45.
9靳蕃.计算机系统差错控制编码方法的一些新结果[J].计算机学报,1989,12(1):61-65. 被引量：1
10陈斌,苏一丹,黄山.基于KM-SMOTE和随机森林的不平衡数据分类[J].计算机技术与发展,2015,25(9):17-21. 被引量：21

计算机应用

2015年第1期

浏览历史

内容加载中请稍等...

基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法被引量：18

参考文献13

二级参考文献95

共引文献536

同被引文献152

引证文献18

二级引证文献87

相关作者

相关机构

相关主题

浏览历史

基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法 被引量：18

参考文献13

二级参考文献95

共引文献536

同被引文献152

引证文献18

二级引证文献87

相关作者

相关机构

相关主题

浏览历史

基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法被引量：18