密度峰值优化的球簇划分欠采样不平衡数据分类算法被引量：6

Imbalanced data classification algorithm based on ball cluster partitioning and undersampling with density peak optimization

下载PDF

导出

摘要在集成算法中嵌入代价敏感和重采样方法是一种有效的不平衡数据分类混合策略。针对现有混合方法中误分代价计算和欠采样过程较少考虑样本的类内与类间分布的问题,提出了一种密度峰值优化的球簇划分欠采样不平衡数据分类算法DPBCPUSBoost。首先,利用密度峰值信息定义多数类样本的抽样权重,将存在“近邻簇”的多数类球簇划分为“易误分区域”和“难误分区域”,并提高“易误分区域”内样本的抽样权重;其次,在初次迭代过程中按照抽样权重对多数类样本进行欠采样,之后每轮迭代中按样本分布权重对多数类样本进行欠采样,并把欠采样后的多数类样本与少数类样本组成临时训练集并训练弱分类器;最后,结合样本的密度峰值信息与类别分布为所有样本定义不同的误分代价,并通过代价调整函数增加高误分代价样本的权重。在10个KEEL数据集上的实验结果表明,与现有自适应增强(AdaBoost)、代价敏感自适应增强(AdaCost)、随机欠采样增强(RUSBoost)和代价敏感欠采样自适应增强(USCBoost)等不平衡数据分类算法相比,DPBCPUSBoost在准确率(Accuracy)、F1分数(F1-Score)、几何均值(G-mean)和受试者工作特征(ROC)曲线下的面积(AUC)指标上获得最高性能的数据集数量均多于对比算法。实验结果验证了DPBCPUSBoost中样本误分代价和抽样权重定义的有效性。 It is an effective hybrid strategy for imbalanced data classification of integrating cost-sensitivity and resampling methods into the ensemble algorithms.Concerning the problem that the misclassification cost calculation and undersampling process less consider the intra-class and inter-class distributions of samples in the existing hybrid methods,an imbalanced data classification algorithm based on ball cluster partitioning and undersampling with density peak optimization was proposed,named Boosting algorithm based on Ball Cluster Partitioning and UnderSampling with Density Peak optimization(DPBCPUSBoost).Firstly,the density peak information was used to define the sampling weights of majority samples,and the majority ball cluster with“neighbor cluster”was divided into“area misclassified easily”and“area misclassified hardly”,then the sampling weight of samples in“area misclassified easily”was increased.Secondly,the majority samples were undersampled based on the sampling weights in the first iteration,then the majority samples were undersampled based on the sample distribution weight in every iteration.And the weak classifier was trained on the temporary training set combining the undersampled majority samples with all minority samples.Finally,the density peak information of samples was combined with the categorical distribution of samples to define the different misclassification costs for all samples,and the weights of samples with higher misclassification cost were increased by the cost adjustment function.Experimental results on 10 KEEL datasets indicate that,the number of datasets with the highest performance achieved by DPBCPUSBoost is more than that of the imbalanced data classification algorithms such as Adaptive Boosting(AdaBoost),Cost-sensitive AdaBoost(AdaCost),Random UnderSampling Boosting(RUSBoost)and UnderSampling and Cost-sensitive Boosting(USCBoost),in terms of evaluation metrics such as Accuracy,F1-Score,Geometric Mean(G-mean)and Area Under Curve(AUC)of Receiver Operating Characteristic(ROC).Experimental results verify that the definition of sample misclassification cost and sampling weight of the proposed DPBCPUSBoost is effective.

作者刘学文王继奎杨正国李强易纪海李冰聂飞平 LIU Xuewen;WANG Jikui;YANG Zhengguo;LI Qiang;YI Jihai;LI Bing;NIE Feiping(School of Information Engineering,Lanzhou University of Finance and Economics,Lanzhou Gansu 730020,China;Key Laboratory of E‑Business Technology and Application of Gansu Province(Lanzhou University of Finance and Economics),Lanzhou Gansu 730020,China;Center for OPTical IMagery Analysis and Learning(OPTIMAL),Northwestern Polytechnical University,Xi’an Shaanxi 710072,China)

机构地区兰州财经大学信息工程学院甘肃省电子商务技术与应用重点实验室(兰州财经大学) 西北工业大学光学影像分析与学习中心

出处《计算机应用》 CSCD 北大核心 2022年第5期1455-1463,共9页 journal of Computer Applications

基金国家自然科学基金资助项目(61772427) 甘肃省高等学校创新能力提升资助项目(2021B-145,2021B-147) 甘肃省自然科学基金资助项目(17JR5RA177) 甘肃省重点研发计划项目(21YF5FA087)。

关键词不平衡数据分类密度峰值球聚类代价敏感欠采样 imbalanced data classification density peak ball clustering cost-sensitive undersampling

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献10

1胡姣姣,王晓峰,张萌,张德鹏,胡绍林.基于深度学习的时间序列数据异常检测方法[J].信息与控制,2019,48(1):1-8. 被引量：36
2张跃飞,王敬飞,陈斌,冯涛,陈志毅.基于改进的Mask R-CNN的公路裂缝检测算法[J].计算机应用,2020,40(S02):162-165. 被引量：12
3刘颖,杨轲.基于深度集成学习的类极度不均衡数据信用欺诈检测算法[J].计算机研究与发展,2021,58(3):539-547. 被引量：14
4易东义,邓根强,董超雄,祝苗苗,吕周平,朱岁松.基于图卷积神经网络的医保欺诈检测算法[J].计算机应用,2020,40(5):1272-1277. 被引量：9
5刘枭,王晓国.基于密集子图的银行电信诈骗检测方法[J].计算机应用,2019,39(4):1214-1219. 被引量：3
6王伟,谢耀滨,尹青.针对不平衡数据的决策树改进方法[J].计算机应用,2019,39(3):623-628. 被引量：12
7徐玲玲,迟冬祥.面向不平衡数据集的机器学习分类策略[J].计算机工程与应用,2020,56(24):12-27. 被引量：58
8陈木生,卢晓勇.三种用于垃圾网页检测的随机欠采样集成分类器[J].计算机应用,2017,37(2):535-539. 被引量：8
9王俊红,闫家荣.基于欠采样和代价敏感的不平衡数据分类算法[J].计算机应用,2021,41(1):48-52. 被引量：20
10万建武,杨明.代价敏感学习方法综述[J].软件学报,2020,31(1):113-136. 被引量：28

二级参考文献46

1林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
2蒋盛益,谢照青,余雯.基于代价敏感的朴素贝叶斯不平衡数据分类研究[J].计算机研究与发展,2011,48(S1):387-390. 被引量：21
3郑恩辉,李平,宋执环.不平衡数据知识挖掘:类分布对支持向量机分类的影响[J].信息与控制,2005,34(6):703-708. 被引量：17
4凌晓峰,SHENG Victor S..代价敏感分类器的比较研究(英文)[J].计算机学报,2007,30(8):1203-1212. 被引量：35
5林智勇,郝志峰,杨晓伟.不平衡数据分类的研究现状[J].计算机应用研究,2008,25(2):332-336. 被引量：44
6喻炜,王建东.基于交易网络特征向量中心度量的可疑洗钱识别系统[J].计算机应用,2009,29(9):2581-2585. 被引量：7
7杨扬,李善平.基于实例重要性的SVM解不平衡数据分类[J].模式识别与人工智能,2009,22(6):913-918. 被引量：14
8王伟,薛安荣,刘峰.改进的SVM解决背景知识数据中的类不平衡[J].计算机应用研究,2011,28(8):2902-2904. 被引量：6
9许丹丹,王勇,蔡立军.面向不均衡数据集的ISMOTE算法[J].计算机应用,2011,31(9):2399-2401. 被引量：12
10赵士伟,卓力,王素玉,沈兰荪.一种基于NNIA多目标优化的代价敏感决策树构建方法[J].电子学报,2011,39(10):2348-2352. 被引量：8

共引文献186

1周传华,徐文倩,朱俊杰.基于代价敏感卷积神经网络的集成分类算法[J].应用科学学报,2022,40(1):69-79. 被引量：4
2王贤巍.现代公路路面检测中短脉冲雷达检测技术应用研究[J].运输经理世界,2021(35):43-45. 被引量：2
3贾燕华,李英梅.基于自适应聚类过采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2023,39(2):45-50. 被引量：1
4谭浩,田爱奎,郑睿.基于高校学生消费数据的贫困生评价分析[J].电脑知识与技术,2017,13(7X):220-221. 被引量：2
5李国和,张腾,吴卫江,洪云峰,周晓明.面向机器学习的训练数据集均衡化方法[J].计算机工程与设计,2019,40(3):812-818. 被引量：11
6徐萌,席泽西,王雍赟,李晓露.基于集成学习的航空发动机故障诊断方法[J].中国民航大学学报,2019,37(2):29-33. 被引量：7
7张忠林,吴挡平.基于概率阈值Bagging算法的不平衡数据分类方法[J].计算机工程与科学,2019,41(6):1086-1094. 被引量：14
8魏欢.基于二元分类的伪装型垃圾网页高效检测方法[J].兰州工业学院学报,2019,26(4):76-80.
9王忠震,黄勃,方志军,高永彬,张娟.改进SMOTE的不平衡数据集成分类算法[J].计算机应用,2019,39(9):2591-2596. 被引量：32
10周健,马季,高玲,孙丽艳.基于决策树的智慧课堂教学策略设计[J].西安邮电大学学报,2019,24(4):104-110. 被引量：2

同被引文献52

1谢超,赵伟,王亚朝,赖际舟,刘建业.多导航传感器数据实时并行采集处理与传输系统的研制[J].电子测量技术,2018,41(21):67-70. 被引量：23
2刘治纲,肖庆汇,丁雪非,罗尉平.软件定义网络用户动态访问控制模型仿真[J].计算机仿真,2019,36(1):308-311. 被引量：9
3吴涛,陈黎飞,郭躬德.优化子空间的高维聚类算法[J].计算机应用,2014,34(8):2279-2284. 被引量：27
4宋天舒,童咏昕,王立斌,许可.空间众包环境下的3类对象在线任务分配[J].软件学报,2017,28(3):611-630. 被引量：47
5吴磊,原鹏,丁维龙.智能家居网关与云服务器数据同步协议的研究[J].计算机技术与发展,2018,28(9):151-155. 被引量：28
6姚哲,陶剑文.多源适应多标签分类框架[J].计算机工程与应用,2017,53(7):88-96. 被引量：24
7王楚捷,王好贤.M-CORD下无线接入网络资源分配研究[J].计算机工程与应用,2018,54(22):92-98. 被引量：75
8陈浩,吴启武,李芳,姜灵芝.基于分层路径计算单元与双矩阵博弈的多域光网络静态组播专用保护算法[J].计算机应用,2018,38(11):3299-3304. 被引量：28
9徐时怀,陆慧娟,叶敏超,严珂,金群.基于云平台和深度学习的软件GUI自动测试系统[J].中国计量大学学报,2018,29(4):398-405. 被引量：10
10赵国锋,黎军,王新恒,陈攀,葛长威.基于SDN的WLAN负载感知切换方案实现[J].计算机应用研究,2019,36(5):1454-1458. 被引量：26

引证文献6

1任金金,汪绪彪.基于神经网络的不均衡数据分类方法[J].长江信息通信,2022,35(12):70-72. 被引量：1
2王学军.基于分块检测的社区网络敏感信息聚类算法[J].智能计算机与应用,2022,12(12):214-217. 被引量：1
3蒋丽丽,于翔,顾晓丽,陈琰.基于朴素贝叶斯算法的环境污染监测数据分类方法[J].信息记录材料,2023,24(5):154-156.
4俞文瑾,白泽洋,田东蒙,尹璐,郑皓天.应用时空大数据的电力需求侧不平衡数据渐进学习算法[J].数学的实践与认识,2023,53(6):197-204. 被引量：3
5李弘扬,史令飞,张利龙.联通公有云平台下军校多源数据融合清洗技术[J].智能计算机与应用,2023,13(7):187-190.
6杨知玲.基于随机平衡采样的不确定大数据流在线分类算法[J].现代电子技术,2023,46(19):125-128.

二级引证文献5

1饶安琪,宋斌,张晨光,赵展鹏,王楷文.云数据护盾下的社交网络安全卫士[J].山西电子技术,2023(6):73-76.
2王晓莉,陈志刚.基于大数据的电力需求侧管理及其营销应用[J].中小企业管理与科技,2023(21):143-145.
3杨天翔,徐海棠,段言志,陈江燕,马英恺,李庆.时空大数据驱动的页岩气钻井成本动态建模与优化[J].天然气技术与经济,2023,17(6):62-69.
4贺曦冉.海量传感数据分类可视化重构算法设计[J].现代计算机,2023,29(22):30-34.
5王欣羽,李薇.基于Bi-LSTM的不平衡样本文本分类模型[J].计算机科学与应用,2023,13(11):1989-1999.

1金松林,来纯晓,郑颖,李艳翠,霍云凤,刘明久,张自阳,韩博,闫思尧,李龙威.基于特征选择和CNN+Bi-RNN模型的小麦抗寒性识别方法[J].江苏农业科学,2022,50(10):201-207. 被引量：2
2李芳,曲豫宾,杨帆.基于深度语义发现的自媒体网络舆情情绪分类模型构建[J].通化师范学院学报,2022,43(6):73-79. 被引量：3
3王文婷,安爱民,保承家,平常,程紫运.基于改进代价敏感直推式支持向量机的发电企业滥用市场力识别[J].电力系统保护与控制,2022,50(11):102-111. 被引量：2
4马汉达,朱敏.改进SVM不平衡数据分类的IGWOSMOTE方法[J].计算机工程与科学,2022,44(6):1133-1140. 被引量：1
5汪敏,周磊,闵帆,张响,沈佳园,韩菲.抽油机故障诊断的分布驱动主动学习算法[J].南京航空航天大学学报,2022,54(3):517-527. 被引量：3
6葛璐璐,陈尧,王志刚,江礼凡,石文泽,王海涛,李秋锋.基于全聚焦的钢筋混凝土超声高分辨成像方法[J].传感技术学报,2022,35(3):361-366. 被引量：4
7单得志,杨柳,梁英,张海悦,张玉海,尚磊,谭志军.复杂抽样条件下应用不同方法估计EQ-5D量表的代答效应[J].中国卫生统计,2021,38(6):816-820.
8李斌,龚晓峰.基于某组合模型的不平衡数据分类算法研究[J].计算机仿真,2022,39(5):292-298. 被引量：4
9毛银宁,姚旭寅,张小贝,李伟杰,杨融.系数自调整的PD-RED算法[J].计算机应用研究,2022,39(6):1683-1688.
10李世银,刘梦琦,王洪梅,张峻源.用于修正NLOS误差的超宽带定位方法[J].移动信息,2022(1):14-16.

计算机应用

2022年第5期

浏览历史

内容加载中请稍等...

密度峰值优化的球簇划分欠采样不平衡数据分类算法被引量：6

参考文献10

二级参考文献46

共引文献186

同被引文献52

引证文献6

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

密度峰值优化的球簇划分欠采样不平衡数据分类算法 被引量：6

参考文献10

二级参考文献46

共引文献186

同被引文献52

引证文献6

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

密度峰值优化的球簇划分欠采样不平衡数据分类算法被引量：6