基于高斯混合模型的非平衡数据对称翻转算法被引量：2

Symmetric Inverting Algorithm for Imbalanced Datasets Based on Gaussian Mixture Model

导出

摘要针对传统分类器对于非平衡数据的分类效果存在的问题,提出了一种基于高斯混合模型-期望最大化(GMM-EM)的对称翻转算法.该算法的核心思想是基于概率论中的"3σ法则"使数据达到平衡.首先,利用高斯混合模型和EM算法得到多数类与少数类数据的密度函数;其次,以少数类数据的均值为对称中心,根据"3σ法则"确定多数类侵入少数类的翻转边界,进行数据翻转,同时剔除与翻转区间中少数类原始数据数据重复的点;此时,若两类数据不平衡,则在翻转区域内使用概率密度增强方法使数据达到平衡.最后,从UCI、KEEL数据库中选取的14组数据使用决策树分类器对平衡后的数据进行分类,实例分析表明了该算法的有效性. Facing the unfavorable classification on imbalanced datasets,we propose a symmetric inverting algorithm based on Gaussian mixture model and expectation maximization(GMM-EM).The algorithm is used to balance the datasets based on the"3σrule"in probability theory.Firstly,we obtain the density functions of the minority class and majority class using GMM algorithm and EM algorithm.Secondly,we operate the symmetric transformation of minority class after obtaining the centers and the radius of the inverting region according to the"3σrule."After the inverting process,we eliminate the repetitive points of the original data of the minority class.At this moment,if the two types of data are imbalanced,the samples of the minority class are generated by using the probability density enhancing method.Finally,we apply our algorithm and other methods together with decision tree classifier for assessment.We choose 14 imbalanced datasets from UCI and KEEL repositories.Experimental results show that our algorithm is more effective than other methods.

作者陈刚王丽娟 CHEN Gang;WANG Lijuan(School of Science,Dalian Maritime University,Dalian 116026,China)

机构地区大连海事大学理学院

出处《信息与控制》 CSCD 北大核心 2020年第2期203-209,218,共8页 Information and Control

基金国家自然科学基金资助项目(11571056)。

关键词非平衡数据数据分类对称翻转 GMM-EM算法 imbalanced dataset data classification symmetric inverting GMM-EM algorithm

分类号 TP273 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献5

1杨阳,丁家满,李海滨,贾连印,游进国,姜瑛.一种基于Spark的不确定数据集频繁模式挖掘算法[J].信息与控制,2019,48(3):257-264. 被引量：18
2赵洋,刘国良,田国会,罗勇,王梓任,张威,李军伟.基于深度学习的视觉SLAM综述[J].机器人,2017,39(6):889-896. 被引量：73
3刘余霞,刘三民,刘涛,王忠群.一种新的过采样算法DB_SMOTE[J].计算机工程与应用,2014,50(6):92-95. 被引量：12
4蒋莎,张晓龙.一种用于非平衡数据的SVM学习算法[J].计算机工程,2008,34(20):198-199. 被引量：7
5刘丹,段建民,王昶人.一种基于聚类分组的快速联合兼容SLAM数据关联算法[J].机器人,2018,40(2):158-168. 被引量：6

二级参考文献29

1施亮,钱雪忠.基于Hadoop的并行FP-Growth算法的研究与实现[J].微电子学与计算机,2015,32(4):150-154. 被引量：15
2张琦,吴斌,王柏.非平衡数据训练方法概述[J].计算机科学,2005,32(10):181-186. 被引量：10
3Vapnik V N. The Nature of Statical Learning Theory[M]. New York, USA: Spfinger-Verlag, 1995.
4Musicant D, Kumar V, Ozgur A. Optimizing P-measure with Support Vector Machines[C]//Proceedings of the 16th International Florida Artificial Intelligence Research Society Conference. Florida, USA: AAAI Press, 2003: 356-360.
5Morik K, Brockhausen P, Joachims T. Combining Statistical Learning with a Knowledge-based Approach A Case Study in Intensive Care Monitoring[C]//Proceedings of the International Conference on Machine Learning. San Diego, CA, USA: [s. n.], 1999.
6He Haibo, Garcia E A.Leaming from imbalanced data[J]. IEEE Transactions on Knowledge and Data Engineering, 2009,21 (9) : 1263-1284.
7Chawla N V,Bowyer K W,Hall L O,et al.SMOTE:Syn- thetic Minority Over-sampling Technique[J].Journal of Artificial Intelligence Research, 2002,16 : 321-357.
8Han H,Wan W Y,Mao B H.Borderline-SMOTE:a new over-sampling method in imbalanced data sets learning[C]// LNCS 3644 : ICIC 2005,Part I, 2005 : 878-887.
9He H,Bai Y, Garcia E A, et aI.ADASYN: adaptive syn- thetic sampling approach for imbalanced learning[C]//Proc of the International Joint Conference on Neural Networks, 2008 : 1322-1328.
10Jo T, Japkowicz N.Class imbalances versus small dis- juncts[J].ACM SIGKDD Explorations Newsletter,2004,6 ( 1 ) : 40-49.

共引文献109

1潘锡英,何元烈,孙盛,陈佳腾.基于图像感兴趣区域的机器人闭环检测算法[J].机器人,2019,41(5):676-682. 被引量：2
2张括嘉,张云洲,吕光浩,龚益群.基于局部语义拓扑图的视觉SLAM闭环检测[J].机器人,2019,41(5):649-659. 被引量：15
3万宏发,李姗姗,蓝朝桢,向明志.基于因子图的无人机视觉定位方法[J].航空学报,2023,44(S01):212-224. 被引量：2
4郭虎升,亓慧,王文剑.处理非平衡数据的粒度SVM学习算法[J].计算机工程,2010,36(2):181-183. 被引量：15
5方景龙,王万良,何伟成.用于不平衡数据分类的FE-SVDD算法[J].计算机工程,2011,37(6):157-158. 被引量：2
6张健,方宏彬,孙启林,刘明术.基于商空间理论的非平衡数据集分类算法[J].计算机应用,2012,32(1):210-212. 被引量：2
7丁秀桥.对护生实习期心理状况与实习效果的相关研究[J].健康心理学杂志,2000,8(3):346-347. 被引量：2
8刘进军.基于惩罚的SVM和集成学习的非平衡数据分类算法研究[J].计算机应用与软件,2014,31(1):186-190. 被引量：6
9林辉.基于CNN与VLAD融合的闭环检测[J].现代计算机,2018,24(24):17-21.
10李月华,朱世强,于亦奇.工厂环境下改进的视觉SLAM算法[J].机器人,2019,41(1):95-103. 被引量：10

同被引文献22

1苏小红,龚丹丹,王甜甜,马培军.结合用例约简与联合依赖概率建模的错误定位[J].软件学报,2014,25(7):1492-1504. 被引量：6
2林晶昱,赵逢禹.一种计算缺陷贡献率的代码缺陷定位规则[J].计算机应用研究,2015,32(9):2702-2707. 被引量：3
3高丑光,林都,鲜浩.基于K均值的软件测试集用例约简算法研究[J].微电子学与计算机,2016,33(5):133-136. 被引量：5
4Luo Yuan,Su Qin,Zhang Yi,Zheng Xiaofeng.Improved Rao-Blackwellized H_∞ filter based mobile robot SLAM[J].The Journal of China Universities of Posts and Telecommunications,2016,23(5):47-55. 被引量：4
5刘锋,李朋,朱二周.基于向量相似度的测试用例集约简方法[J].微电子学与计算机,2017,34(3):35-39. 被引量：4
6唐洪良,黄颖,黄淮,杨成顺,黄宵宁.改进的自适应高斯混合模型运动目标检测算法[J].现代电子技术,2017,40(11):65-67. 被引量：5
7张蕊,薛黎.搜索树在测试用例约减中的应用[J].计算机与网络,2016,42(23):48-48. 被引量：1
8张大力,夏红伟,马广程,王常虹.基于萤火虫群优化的空间非合作目标相对导航粒子滤波算法[J].中国惯性技术学报,2017,25(2):269-274. 被引量：4
9仉新,张禹,苏晓明.基于启发式算法的移动机器人SLAM[J].中国惯性技术学报,2018,26(1):45-50. 被引量：17
10张婧懿,隋思逸.基于高斯混合模型联合CamShift的运动图像检测跟踪方法[J].计算机测量与控制,2018,26(5):59-61. 被引量：2

引证文献2

1杨永国.基于自适应高斯混合模型的软件测试用例集约简算法研究[J].计算机测量与控制,2021,29(6):46-50. 被引量：4
2袁帅,刘同健,栾方军,张凤,吴健.基于变分贝叶斯优化的近邻采样PF-SLAM算法[J].中国惯性技术学报,2022,30(1):96-103. 被引量：3

二级引证文献7

1蔡可天,钱玉良.风电接入时考虑储能和分时电价的电力系统经济调度[J].南方电网技术,2022,16(7):116-127. 被引量：12
2刘辉,杨永凯,刘中一.一种测试用例精简与自动生成方法[J].甘肃科技,2022,38(20):23-27. 被引量：1
3纪芩.基于云平台的软件性能测试技术分析[J].电子技术与软件工程,2022(23):74-77.
4王轲,李星秀,吴盘龙.一种变分贝叶斯改进无偏转换卡尔曼滤波[J].中国惯性技术学报,2023,31(3):261-267. 被引量：1
5刘汀.基于改进蚁群算法的软件回归测试用例集优化方法[J].信息与电脑,2023,35(2):84-86.
6翟鸿启,王立辉,应泽华,孟骞,蔡体菁.基于KLD重采样的抗差自适应UFastSLAM算法[J].中国惯性技术学报,2023,31(4):343-351. 被引量：1
7张淑珍,马玉祥,侯致远,查富生,何镇.融合波前边缘检测与快速搜索随机树的自主探索方法[J].中国惯性技术学报,2023,31(9):925-931.

1张岩.基于梯度提升决策树分类器的进化计算动态性能研究[J].信息系统工程,2020(3):157-159. 被引量：4
2陈刚,吴振家.一种基于GMM-EM的非平衡数据的概率增强算法[J].控制与决策,2020,35(3):763-768. 被引量：3
3宋雪桦,汪盼,邓壮来,解晖.基于物联网的粮情监控系统中入侵检测研究[J].安庆师范大学学报（自然科学版）,2020,26(1):1-8. 被引量：1
4宋玲玲,王时绘,杨超,盛潇.改进的XGBoost在不平衡数据处理中的应用研究[J].计算机科学,2020,47(6):98-103. 被引量：19
5王勇,沙依然.新疆荒漠化动态变化分析[J].新疆农垦科技,2019,42(8):37-39. 被引量：1
6李新鹏,高欣,何杨,阎博,孙汉旭,李军良,徐建航,刘震宇,庞博.不平衡数据集下基于自适应加权Bagging-GBDT算法的磁盘故障预测模型[J].微电子学与计算机,2020,37(3):14-19. 被引量：8
7孟庆鹏,田开严,张恒.面向非平衡数据分类的概率过抽样过滤方法[J].雷达与对抗,2020,40(1):17-21.
8荀华,韩荀杰,张森.基于规则的电力数据指标检查系统设计与实现[J].东北电力技术,2020,41(5):5-9. 被引量：1
9Yu Peng,Jin-fang Cheng,Run-xiang Jiang.Inversion of UEP signatures induced by ships based on PSO method[J].Defence Technology（防务技术）,2020,16(1):172-177.
10刘景云(文/图).“清洗”重复数据,优化WinServer磁盘管理[J].电脑知识与技术（经验技巧）,2020,0(3):19-21.

信息与控制

2020年第2期

浏览历史

内容加载中请稍等...

基于高斯混合模型的非平衡数据对称翻转算法被引量：2

参考文献5

二级参考文献29

共引文献109

同被引文献22

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于高斯混合模型的非平衡数据对称翻转算法 被引量：2

参考文献5

二级参考文献29

共引文献109

同被引文献22

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于高斯混合模型的非平衡数据对称翻转算法被引量：2