一种基于样本空间的类别不平衡数据采样方法被引量：10

A Sampling Method of Imbalanced Data Based on Sample Space

下载PDF

导出

摘要不平衡数据是机器学习中普遍存在的问题并得到广泛研究,即少数类的样本数量远远小于多数类样本的数量.传统基于最小化错误率方法的不足在于:分类结果会倾向于多数类,造成少数类的精度降低,通常还存在时间复杂度较高的问题.为解决上述问题,提出一种基于样本空间分布的数据采样方法,伪负样本采样方法.伪负样本指被标记为负样本(多数类)但与正样本(少数类)有很大相关性的样本.算法主要包括3个关键步骤:1)计算正样本的空间分布中心并得到每个正样本到空间中心的平均距离;2)以同样的距离计算方法计算每个负样本到空间分布中心的距离,并与平均距离进行比较,将其距离小于平均距离的负样本标记为伪负样本;3)将伪负样本从负样本集中删除并加入到正样本集中.算法的优势在于不改变原始数据集的数量,因此不会引入噪声样本或导致潜在信息丢失;在不降低整体分类精度的情况下,提高少数类的精确度.此外,其时间复杂度较低.经过13个数据进行多角度实验,表明伪负样本采样方法具有较高的预测准确性. Data imbalance is a very common problem that has been comprehensively studied in machine learning techniques, where the minority class contains very few samples compared with the majority class. The disadvantage of traditional methods based on minimizing the error lies in: they tend to be biased toward the majority class, so these models have low prediction accuracy for the minority class and might have high time complexity. To solve the above problems, a data sampling method based on spatial distribution, Pseudo-negative sampling is proposed.Pseudo-negative samples refer to samples marked as negative samples(majority class) but with a strong correlation with positive samples(minority class). The algorithm mainly includes three key steps:1) calculate the spatial center of the positive samples and figure out the average distance of positive samples to the spatial center;2) calculate the distance from each negative sample to the spatial center with similar distance calculation approach and compare it with the average distance, and then mark the negative sample as pseudo negative sample whose distance is less than the average distance;3) delete the pseudo negative samples from the negative samples and add them to the positive sample set. The advantage of the algorithm is that it does not change the number of original data sets, so it does not introduce noise samples or cause potential information loss;the accuracy of a few classes can be improved without decreasing the overall classification accuracy and the time cost is low. Extensive experiments are conducted on thirteen datasets from multiple aspects, and the results show that the pseudo-negative sampling method has high prediction accuracy.

作者张永清卢荣钊乔少杰韩楠 GUTIERREZ Louis Alberto 周激流 ZHANG Yong-Qing;LU Rong-Zhao;QIAO Shao-Jie;HAN Nan;GUTIERREZ Louis Alberto;ZHOU Ji-Liu(School of Computer Science,Chengdu University of Information Technology,Chengdu 610225,China;School of Computer Science and Engineering,University of Electronic Science and Technology of China,Chengdu 611731,China;School of Software Engineering,Chengdu University of Information Technology,Chengdu 610225,China;School of Management,Chengdu University of Information Technology,Chengdu 610103,China;Department of Computer Science,Rensselaer Polytechnic Institute,New York 12180,USA)

机构地区成都信息工程大学计算机学院电子科技大学计算机科学与工程学院成都信息工程大学软件工程学院成都信息工程大学管理学院伦斯勒理工学院计算机科学系

出处《自动化学报》 EI CAS CSCD 北大核心 2022年第10期2549-2563,共15页 Acta Automatica Sinica

基金国家自然科学基金(61702058,61772091,61802035,61962006) 四川省科技计划项目(2021JDJQ0021,22ZDYF2680,2021YZD0009,2021ZYD0033) 成都市技术创新研发项目(2021-YF05-00491-SN) 成都市重大科技创新项目(2021-YF08-00156-GX) 成都市“揭榜挂帅”科技项目(2021-JB00-00025-GX) 四川音乐学院数字媒体艺术四川省重点实验室资助项目(21DMAKL02) 广东省基础与应用基础研究基金(2020B1515120028)资助。

关键词不平衡数据样本空间机器学习采样方法空间中心 Imbalanced data spatial distribution machine learning sampling method spatial center

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献11

1张宏莉,鲁刚.分类不平衡协议流的机器学习算法评估与比较[J].软件学报,2012,23(6):1500-1516. 被引量：25
2林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
3蒋盛益,谢照青,余雯.基于代价敏感的朴素贝叶斯不平衡数据分类研究[J].计算机研究与发展,2011,48(S1):387-390. 被引量：21
4Bo SUN,Haiyan CHEN,Jiandong WANG,Hua XIE.Evolutionary under-sampling based bagging ensemble method for imbalanced data classification[J].Frontiers of Computer Science,2018,12(2):331-350. 被引量：10
5罗珍珍,陈靓影,刘乐元,张坤.基于条件随机森林的非约束环境自然笑脸检测[J].自动化学报,2018,44(4):696-706. 被引量：7
6张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):32-42. 被引量：2257
7毛毅,陈稳霖,郭宝龙,陈一昕.基于密度估计的逻辑回归模型[J].自动化学报,2014,40(1):62-72. 被引量：32
8王雪松,潘杰,程玉虎,曹戈.基于相似度衡量的决策树自适应迁移[J].自动化学报,2013,39(12):2186-2192. 被引量：9
9乔少杰,金琨,韩楠,唐常杰,格桑多吉,Louis Alberto GUTIERREZ.一种基于高斯混合模型的轨迹预测算法[J].软件学报,2015,26(5):1048-1063. 被引量：115
10乔少杰,韩楠,丁治明,金澈清,孙未未,舒红平.多模式移动对象不确定性轨迹预测模型[J].自动化学报,2018,44(4):608-618. 被引量：12

二级参考文献29

1职为梅,范明.利用基本显露模式两阶段分类稀有类[J].微机发展,2005,15(12):44-47. 被引量：4
2刘胥影,吴建鑫,周志华.一种基于级联模型的类别不平衡数据分类方法[J].南京大学学报（自然科学版）,2006,42(2):148-155. 被引量：23
3Chen C,,Liaw A,Breiman L.Using random forests to learn unbalanced data. . 2004
4WANG Yao-Nan YUAN Xiao-Fang.SVM Approximate-based Internal Model Control Strategy[J].自动化学报,2008,34(2):172-179. 被引量：15
5王磊,邹北骥,彭小宁.针对表情动作单元跟踪的隧道隐变量法[J].自动化学报,2009,35(2):198-201. 被引量：2
6徐鹏,刘琼,林森.基于支持向量机的Internet流量分类研究[J].计算机研究与发展,2009,46(3):407-414. 被引量：59
7徐鹏,林森.基于C4.5决策树的流量分类方法[J].软件学报,2009,20(10):2692-2704. 被引量：169
8邹权,郭茂祖,刘扬,王峻.类别不平衡的分类方法及在生物信息学中的应用[J].计算机研究与发展,2010,47(8):1407-1414. 被引量：26
9卢增祥,李衍达.交互支持向量机学习算法及其应用[J].清华大学学报（自然科学版）,1999,39(7):93-97. 被引量：40
10赵志刚,吕慧显,李玉景,李京.一种基于聚类思想的SVM多类分类方法[J].青岛理工大学学报,2011,32(1):73-76. 被引量：3

共引文献2537

1游航航,余敏建,吕艳,杨海燕,韩其松.基于改进灰狼算法优化的UKF在空战轨迹预测中的应用[J].战术导弹技术,2020(1):91-98. 被引量：6
2白岗岗,侯精明,史玉品,韩浩,郭凯华,李丙尧,付德宇.基于支持向量机的葫芦河流域径流变化的多因素贡献率分析[J].水土保持研究,2020,27(2):112-117. 被引量：2
3曾赟.第四种法学知识新形态——数据法学的研究定位[J].法制与社会发展,2023,29(1):41-59. 被引量：9
4乔丹,刘刚,杨执钧,钟韬,白雪.基于迁移学习的船舶目标识别[J].计算机应用研究,2020,37(S01):324-325. 被引量：1
5张显炀,刘刚,马霄龙,陈健,李兆麟.基于变分自编码的海面舰船轨迹预测算法[J].计算机应用研究,2020,37(S01):122-125. 被引量：3
6孟琮棠,赵银娣,向阳.基于卷积神经网络的遥感图像变化检测[J].现代测绘,2019,0(5):1-5. 被引量：3
7杨淼.一种基于GMM-Boost的室内定位方法[J].电视技术,2021,45(9):150-156. 被引量：2
8邓建国,张素兰,张继福,荀亚玲,刘爱琴.监督学习中的损失函数及应用研究[J].大数据,2020,6(1):60-80. 被引量：31
9田海军,门洪,郎世伟.基于LS-SVM的电厂过热汽温仿真研究[J].微计算机信息,2007,23(10):270-272. 被引量：2
10张磊,夏士雄,牛强.基于SVM二叉决策树方法的矿井提升机故障诊断[J].微计算机信息,2008,24(10):198-199. 被引量：4

同被引文献78

1霍甜媛,顾晶晶.基于多源健康感知数据动静态关系融合的疾病诊断[J].计算机科学,2022,49(S02):231-239. 被引量：1
2林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
3解艳,薛科社.二噁英分析检测方法研究进展及展望[J].环境科学与管理,2011,36(3):84-86. 被引量：6
4陶新民,童智靖,刘玉,付丹丹.基于ODR和BSMOTE结合的不均衡数据SVM分类算法[J].控制与决策,2011,26(10):1535-1541. 被引量：22
5江樱,王志强,戴波.基于大数据的居民用电消费习惯研究与分析[J].电力信息与通信技术,2015,13(11):7-11. 被引量：18
6郭保青,余祖俊,张楠,朱力强,高晨光.铁路场景三维点云分割与分类识别算法[J].仪器仪表学报,2017,38(9):2103-2111. 被引量：31
7李干杰.以习近平新时代中国特色社会主义思想为指导奋力开创新时代生态环境保护新局面[J].环境保护,2018,46(5):7-19. 被引量：45
8赵楠,张小芳,张利军.不平衡数据分类研究综述[J].计算机科学,2018,45(B06):22-27. 被引量：45
9汤健,乔俊飞,柴天佑,刘卓,吴志伟.基于虚拟样本生成技术的多组分机械信号建模[J].自动化学报,2018,44(9):1569-1589. 被引量：24
10高强,姜忠昊.基于GAN等效模型的小样本库扩增研究[J].电测与仪表,2019,56(6):76-81. 被引量：9

引证文献10

1陈昭俊,储珺,曾伦杰.基于动态加权类别平衡损失的多类别口罩佩戴检测[J].图学学报,2022,43(4):590-598. 被引量：5
2黄惠英,黄锐,邓勇,郑蔚涛.基于BSMOTE和CatBoost的“散乱污”企业研判方法[J].电力信息与通信技术,2022,20(11):105-113.
3马进伟.基于类别比率自适应的极端不平衡分类模型[J].自动化应用,2022(9):72-75.
4汤健,崔璨麟,夏恒,王丹丹,乔俊飞.基于主动学习机制GAN的MSWI过程二噁英排放风险预警模型[J].北京工业大学学报,2023,49(5):507-522.
5吴帅,陈宁江.基于密度峰值和K近邻的密度均衡采样方法[J].广西大学学报（自然科学版）,2023,48(4):931-942.
6杨知玲.基于随机平衡采样的不确定大数据流在线分类算法[J].现代电子技术,2023,46(19):125-128.
7严远亭,马迎澳,任艳平,张燕平.基于构造性神经网络与全局密度信息的不平衡数据欠采样方法[J].计算机科学,2023,50(10):48-58. 被引量：1
8郑嘉颖,王杰,付攀,李桢,边桂彬.基于数据融合的不平衡连续手术动作分割识别[J].科学技术与工程,2023,23(29):12620-12627.
9陈睿星,吴军,赵雪梅,徐刚.顾及长尾分布的机载LiDAR点云CNN语义分割[J].仪器仪表学报,2023,44(7):282-295. 被引量：1
10李艳红,王甜甜,王素格,李德玉.非平衡概念漂移数据流主动学习方法[J].自动化学报,2024,50(3):589-606.

二级引证文献7

1赵元龙,单玉刚,袁杰.改进YOLOv7与DeepSORT的佩戴口罩行人跟踪[J].计算机工程与应用,2023,59(6):221-230. 被引量：16
2杨国亮,余帅英,杨浩.改进YOLOV5s的多尺度融合口罩佩戴检测方法[J].计算机工程与应用,2023,59(14):184-191. 被引量：1
3徐宏伟,李然,张家旭.基于改进YOLOv7的湖面漂浮物目标检测算法[J].现代电子技术,2024,47(1):105-110.
4黄思佳,宋纯锋,李璇.基于可变尺度先验框的声呐图像目标检测[J].系统工程与电子技术,2024,46(3):771-778.
5王欣然,张斌,湛敏,赵成龙.基于改进的Faster RCNN的仪表自动识别方法[J].机电工程,2024,41(3):532-539.
6汤继锐,潘丹,刘立程,彭鸿,刘柏菁,王家豪.基于三维点云的植株联合任务分割框架[J].国外电子测量技术,2024,43(3):83-90.
7陈丽敏,刘春玲,谢昕彤,曾丽珠,韩结谊,朱成晓,谢昭仪,吴伟珍.基于ECSI模型的医疗服务满意度评价研究——以S市公立医院为例[J].现代医院,2024,24(6):831-835.

1张栩阳,姚韵楚,石悦,佟鑫,梁昕语,童薪宇,刘爱华,陈端端.基于自适应采样与Dense机制的颅内动脉瘤血管多结构分割[J].数据采集与处理,2022,37(4):766-775.
2黄冬梅,吴志浩,孙园,胡安铎,时帅,孙锦中.基于VAE预处理和RP-2D CNN的不平衡负荷数据类型辨识方法[J].电力系统及其自动化学报,2022,34(10):66-72. 被引量：3
3卜荟力,方贤进,杨高明.基于多维度信息交互的遥感图像目标检测算法[J].黑龙江工业学院学报（综合版）,2022,22(10):58-65. 被引量：3

自动化学报

2022年第10期

浏览历史

内容加载中请稍等...

一种基于样本空间的类别不平衡数据采样方法被引量：10

参考文献11

二级参考文献29

共引文献2537

同被引文献78

引证文献10

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种基于样本空间的类别不平衡数据采样方法 被引量：10

参考文献11

二级参考文献29

共引文献2537

同被引文献78

引证文献10

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种基于样本空间的类别不平衡数据采样方法被引量：10