基于非均衡数据集的新型混合重取样算法被引量：1

Novel Hybrid Re-sampling Algorithm Based Imbalanced Data Sets

导出

摘要在分析重取样技术的基础上,设计并实现了自适应选择近邻的混合重取样算法。该方法结合过取样和欠取样方法的优势,改进了SMOTE过取样算法在产生合成样本过程中存在的盲目性及只能复制生成数值属性的问题,新算法能根据实例样本集内部分布的真实特性,自适应调整近邻选择策略,对不同属性的数据采取不同的复制方法生成新的少数类实例,控制和提高合成样本的质量;并通过对合成之后的数据集用改进的邻域清理方法进行适当程度欠取样,去掉多数类中的冗余实例和边界上的噪音数据,减少其规模,在一定程度上达到相对均衡,从而可有效地处理非均衡数据分类问题,提高分类器的性能。 On the basis of analyzing re-sampling technology,a novel hybrid re-sampling technique based on Automated Adaptive Selection of the Number of Nearest Neighbors （ADSNNHRS） is proposed.This method in fact is combining the advantages of both technology of improved Synthetic Minority Over-sampling Technique（SMOTE） method with neighborhood cleaning rule（NCL） data cleaning method.In our procedure of over-sampling,in the SMOTE method,blindfold new synthetic minority class examples by randomly interpolating pairs of closest neighbors are added into the minority class;and data sets with nominal features can not be handled,these two problems are solved by the automated adaptive selection of nearest neighbors and adjusting the neighbor selective strategy.As a consequence,the quality of the new samples can be well controlled.In the procedure of under-sampling,by using the improved under-sampling technique of neighborhood cleaning rule,borderline majority class examples and the noisy or redundant data are removed.The main motivation behind these methods is not only to balance the training data,but also to remove noisy examples lying on the wrong side of the decision border.The removal of noisy examples might aid in finding better-defined class clusters,therefore,allowing the creation of simpler models with better generalization capabilities,therefore,promising effective processing of IDS and a considerably enhanced classifier performance.

作者谷琼王贤明李文新

机构地区襄樊学院数学与计算机科学学院温州大学瓯江学院

出处《武汉理工大学学报》 CAS CSCD 北大核心 2010年第20期55-60,共6页 Journal of Wuhan University of Technology

基金国家高技术研究发展863计划项目(2009AA12Z117) 襄樊学院规划项目(2009YA012)

关键词非均衡数据集重取样机器学习分类 imbalanced data sets re-sampling machine learning classification

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1Chawla N V, Bower K W, Hall L O, et al. Smote: Synthetic Minority Over-sampling Technique[J]. Journal of Artificial Intelligence Research, 2002,16 (3) 321-357.
2Chawla N V, Lazarevic A, Hall L O, et al. Smoteboost: Improving Prediction of the Minority Class in Boosting [ C] //Lecture Notes In Computer Science, 2003 : 107-119.
3Han H, Wang W, Mao B. Borderline-smote: A New Over-sampling Method in Imbalanced Data Sets Learning [ J ]. Lecture Notes In Computer Science, 2005,3644 (1) : 878-887.
4杨智明,乔立岩,彭喜元.基于改进SMOTE的不平衡数据挖掘方法研究[J].电子学报,2007,35(B12):22-26. 被引量：30
5Hart P E. The Condensed Nearest Neighbor Rule[J]. IEEE Transactions on Information Theory, 1968,14 (3):515-516.
6Laurikkala J. Improving Identification of Difficult Small Classes by Balancing Class Distribution[C]//Artificial Intelligence in Medicine, 2001 : 63-66.
7Kubat M, Matwin S. Addressing the Curse of Imbalanced Training Sets: One-sided Selection [ C] //Proceedings of the Fourteenth International Conference on Machine Learning, 1997:179-186.
8Tomek I. Two Modifications of Cnn[J ]. IEEE Transactions on Systems, Man and Cybernetics, 1976,6(6):769-772.
9Estabrooks A. A Combination Scheme for Inductive Learning from Imbalanced Data Sets[ D]. Dalhousie University, 2000.
10Stanfill C, Waltz D. Toward Memory-based Reasoning[J]. Communications of the ACM, 1986,29 (12) 1213-1228.

二级参考文献12

1Weiss GM. Mining with rarity: A unifying framework [ J ]. SIGKDD Explorations, 2004,6(1) : 7 - 19.
2Chawla N, Bowyer K, Hall L, Kegelmeyer W. SMOTE: Synthetic minority over-sampling technique[ J]. Journal of Artificial Intelligence Research,2002,16(1) :321 - 357.
3Kubat M,Matwin S. Addressing the curse of imbalanced training sets:one-sided selection[A] .Proc of the 14th International Conference on Machine Leaming[C]. San Francisco,CA: Morgan Kaufmann, 1997.217 - 225.
4Japkowicz N, Stephen S. The class imbalance problem: a systematic study [J]. Intelligent Data Analysis Journal, 2002, 6 (5) :429 - 450.
5Gustavo E, Batista P, Ronaldo C.A study of the behavior of several methods for balancing machine learning training data [J]. SIGKDD Explorations, 2004,6 ( 1 ) : 20 - 29.
6Veropoulos K, Campbell C, Cristianini N. Controlling the sensitivity of support vector machines[ A]. Proceedings of the International Joint Conference on AI[ C ]. San Francisco, CA: Morgan Kaufmann, 1999.55 - 60.
7T Imam,K M Ting,J Kamruzzaman. z-SVM:An SVM for improved classification of imbalanced data [ A ]. Australian Joint Conference on AI[ C]. Hobart, Australia: Springer, 2006.264 -273.
8L M Manevitz,M Yousef. One-class SVMs for document classification[ J]. Journal of Machine Leaming Research, 2001,2 (1):139- 154.
9Chawla N, Bowyer K, Hall L, Kegelmeyer W. SMOTEBoost: Improving prediction of the minority class in boosting[A]. 7th European Conference on Principles and Practice of Knowledge Discovery in Databases [ C ]. Cavtat-Dubrovnik, Croatia: Springer,2003. 107- 119.
10Wu G, Chang E. Class-boundary alignment for imbalanced dataset learning[ A]. Workshop on Leaming from Imbalanced Data Sets Ⅱ,ICML[C]. Washington, DC: AAAI Press,2003: 49 - 56.

共引文献29

1张彤,李英梅.基于聚类和混合采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2022,38(2):58-63.
2王慧燕,徐珊.基于贝叶斯分类器的脉象自动识别方法[J].中国生物医学工程学报,2009,28(5):735-742. 被引量：3
3谷琼,蔡之华,朱莉,王贤明.新型混合重取样算法在岩爆预测中的应用[J].地球科学（中国地质大学学报）,2010,35(2):311-316.
4陈思,郭躬德,陈黎飞.基于聚类融合的不平衡数据分类方法[J].模式识别与人工智能,2010,23(6):772-780. 被引量：28
5王超学,潘正茂,董丽丽,马春森,张星.基于改进SMOTE的非平衡数据集分类研究[J].计算机工程与应用,2013,49(2):184-187. 被引量：19
6楼晓俊,孙雨轩,刘海涛.聚类边界过采样不平衡数据分类方法[J].浙江大学学报（工学版）,2013,47(6):944-950. 被引量：31
7胡小生.改进随机子空间与决策树相结合的不平衡数据分类方法[J].佛山科学技术学院学报（自然科学版）,2013,31(5):22-26.
8翟云,王树鹏,马楠,杨炳儒,张德政.基于单边选择链和样本分布密度融合机制的非平衡数据挖掘方法[J].电子学报,2014,42(7):1311-1319. 被引量：17
9王超学,张涛,马春森.面向不平衡数据集的改进型SMOTE算法[J].计算机科学与探索,2014,8(6):727-734. 被引量：23
10王金婉,毛文涛,何玲,王礼云.基于不均衡样本重构的加权在线贯序极限学习机[J].计算机应用,2015,35(6):1605-1610. 被引量：2

同被引文献12

1张选平,杜玉平,秦国强,覃征.一种动态改变惯性权的自适应粒子群算法[J].西安交通大学学报,2005,39(10):1039-1042. 被引量：138
2丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述[J].电子科技大学学报,2011,40(1):2-10. 被引量：874
3菅锦锦,吉洪湖,曹广州,胡娅萍,郭灵波.角状明冰积冰过程中水膜流动与吹离的数值研究[J].工程热物理学报,2018,39(10):2284-2293. 被引量：1
4王田田,王艳,纪志成.基于改进极限学习机的滚动轴承故障诊断[J].系统仿真学报,2018,30(11):4413-4420. 被引量：16
5谢文旺,孙云莲,黄雅鑫.基于改进随机森林的电力线通信优化算法研究[J].电力系统保护与控制,2019,47(11):22-29. 被引量：13
6马实一,李建成,段聪,吴骏,徐彤,陈皓菲,潘文霞,严慧敏.基于电力市场背景的风-光-抽水蓄能联合优化运行[J].智慧电力,2019,47(8):43-49. 被引量：23
7吕红燕,冯倩.随机森林算法研究综述[J].河北省科学院学报,2019,36(3):37-41. 被引量：112
8党东升,张树永,葛鹏江,田星.基于改进量子粒子群优化支持向量机的变压器故障诊断方法[J].电力科学与技术学报,2019,34(3):108-113. 被引量：44
9靳果,朱清智,孟阳,闫奇.基于多层极限学习机的电能质量扰动多标签分类算法[J].电力系统保护与控制,2020,48(8):96-105. 被引量：22
10齐咏生,樊佶,刘利强,高学金,李永亭.基于形态学分形和极限学习机的风电机组轴承故障诊断[J].太阳能学报,2020,41(6):102-112. 被引量：13

引证文献1

1海涛,范恒,王楷杰,刘振语,陈永鉴.基于PSO-SVM算法的风电机组结冰故障诊断[J].智慧电力,2021,49(4):1-6. 被引量：19

二级引证文献19

1李亚光,李蒙.基于深度小世界神经网络的风电机组异常检测[J].发电技术,2021,42(3):313-321. 被引量：6
2张玮,荀超,黄夏楠,邱向京,于海波,王辉.计及价格弹性负荷及风电的随机安全约束经济调度[J].智慧电力,2021,49(6):116-123. 被引量：5
3张运厚,李婉莹,董福贵.基于DE-GWO-SVR的中长期电力需求预测[J].中国电力,2021,54(9):83-88. 被引量：15
4仝瑶瑶,张可馨.基于粒子群改进最小二乘支持向量机的汽轮机轴振动故障诊断[J].自动化应用,2021(9):15-19. 被引量：2
5赵娟娟,刘广臣,王瑞桃,徐晓宇,张玫洁,黄文广.基于LightGBM的风电机组齿轮箱油温故障预警研究[J].电力大数据,2021,24(11):76-84. 被引量：3
6张峰毓,霍政界,李铭,陈国才.基于时空分析的变电站继电保护故障信息检测系统设计[J].电子设计工程,2022,30(4):110-114. 被引量：8
7胡蓓,吴永康,郭子君,夏历.风力发电叶片裂缝监测技术综述[J].高压电器,2022,58(7):93-100. 被引量：4
8杨贤东,袁旭峰,熊炜,祝健杨,徐玉韬,邹晓松.考虑源荷不确定性的风光火储系统低碳经济调度[J].智慧电力,2022,50(8):22-29. 被引量：19
9董礼,韩则胤,王宁,王恩路,苏宝定.基于深度学习算法的风电机组叶片开裂缺陷分析[J].计算机测量与控制,2022,30(8):142-146. 被引量：1
10魏聪聪,邓祥力,贾声昊,房刘远.基于多源数据及多维故障诊断空间的快速智能电网故障诊断方案[J].电测与仪表,2022,59(10):145-153. 被引量：8

1谷琼,袁磊,宁彬,吴钊,华丽,李文新.一种基于混合重取样策略的非均衡数据集分类算法[J].计算机工程与科学,2012,34(10):128-134. 被引量：22
2谷琼,袁磊,宁彬,吴钊,华丽,李文新.基于改进的SMOTE和RST的新型混合重取样算法[J].微电子学与计算机,2012,29(9):83-86.
3谷琼,袁磊,宁彬,熊启军,华丽,李文新.一种基于重取样的代价敏感学习算法[J].计算机工程与科学,2011,33(9):130-135. 被引量：2
4谷琼,袁磊,熊启军,宁彬,李文新.基于非均衡数据集的代价敏感学习算法比较研究[J].微电子学与计算机,2011,28(8):146-149. 被引量：30
5李正欣,赵林度.基于SMOTEBoost的非均衡数据集SVM分类器[J].系统工程,2008,26(5):116-119. 被引量：14
6陶利民,郭俊恩.改进遗传算法在求解TSP问题上的应用研究[J].计算机工程与应用,2009,45(33):45-47. 被引量：7
7钟瑛,朱顺痣,曾志强,洪文兴.一种基于核学习的非均衡数据分类算法[J].厦门大学学报（自然科学版）,2012,51(2):189-194. 被引量：2
8张燕.基于二次SVM的不均衡数据算法[J].商洛学院学报,2014,28(4):38-41.
9赵凤英,王崇骏,陈世福.用于不均衡数据集的挖掘方法[J].计算机科学,2007,34(9):139-141. 被引量：5
10董璇,蔡立军.一种改进的少数类样本识别方法[J].微型机与应用,2012,31(18):60-62. 被引量：1

武汉理工大学学报

2010年第20期

浏览历史

内容加载中请稍等...

基于非均衡数据集的新型混合重取样算法被引量：1

参考文献12

二级参考文献12

共引文献29

同被引文献12

引证文献1

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于非均衡数据集的新型混合重取样算法 被引量：1

参考文献12

二级参考文献12

共引文献29

同被引文献12

引证文献1

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于非均衡数据集的新型混合重取样算法被引量：1