一种基于样本学习复杂度的不平衡数据过采样方法被引量：2

An Oversampling Method for Imbalanced Data Based on Learning Complexity of Samples

下载PDF

导出

摘要在人们的生活中存在大量的不平衡数据,如何识别人们感兴趣的少数类是一个具有挑战性的问题。论文基于ADASYN算法中提出的样本学习复杂度的思想,设计了一种新的过采样方法LDSMOTE。在该方法中,少数类主样本的学习复杂度与该主样本在少数类和多数类样本空间的分布都有关,ADASYN只利用了邻域多数类样本分布信息,而LDSMOTE融合了局部少数类平均距离和局部多数类样本数的信息。不同于ADASYN中复杂度是离散值,论文中的复杂度是连续的值,更能表现不同主样本之间的差异性和复杂度的多样性。分类器使用支持向量机,对KEEL不平衡数据库中的19个数据集进行实验,结果表明,在超过半数的数据集上,LDSMOTE的Recall、G-mean和AUC性能优于SMOTE、Borderline-SMOTE以及ADASYN算法。 There is a large amount of imbalanced data in people's lives,and how to identify the minority class which people are interested in is a challenging problem.Based on the idea of sample learning complexity proposed in the ADASYN algorithm,a new oversampling method LDSMOTE is designed.In this method,the learning complexity of a minority class main samples is relat⁃ed to the distribution of the main sample in the minority class and the majority class sample space.ADASYN only uses the neighbor⁃hood majority class sample distribution information,while LDSMOTE fuses average distance of the local minority class and informa⁃tion on the number of local majority samples.Unlike the complexity in ADASYN,which is a discrete value,the complexity in this paper is a continuous value,which is more representative of the diversity of differences and complexity between different main sam⁃ples.The classifier uses the support vector machine to experiment with 19 data sets in the KEEL imbalanced database.The results show that LSDMOTE's Recall,G-mean and AUC performance is better than SMOTE,Borderline-SMOTE and ADASYN algorithm on more than half of the data sets.

作者许皓孙廷凯 XU Hao;SUN Tingkai(School of Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210094)

机构地区南京理工大学计算机科学与工程学院

出处《计算机与数字工程》 2020年第8期1846-1851,1857,共7页 Computer & Digital Engineering

关键词过采样不平衡数据主样本学习复杂度样本分布 oversampling imbalanced data main sample learning complexity sample distribution

分类号 P624.4 [天文地球—地质矿产勘探]

引文网络
相关文献

同被引文献17

1张诗雨,杨珂,夏春明,金陈玲,王忆勤,燕海霞.基于随机森林的脉象信号特征降维与分类研究[J].世界科学技术-中医药现代化,2020,22(7):2418-2426. 被引量：6
2胡茂力,李艳春,肖南峰.基于物联网的多传感器数据采集系统研究[J].重庆理工大学学报（自然科学）,2016,30(10):108-117. 被引量：19
3王若佳,魏思仪,赵怡然,王继民.数据挖掘在健康医疗领域中的应用研究综述[J].图书情报知识,2018,35(5):114-123. 被引量：23
4张晓航,石清磊,王斌,王炳蔚,王永吉,陈力,吴敬征.机器学习算法在中医诊疗中的研究综述[J].计算机科学,2018,45(B11):32-36. 被引量：25
5刘云翔,陈斌,周子宜.一种基于随机森林的改进特征筛选算法[J].现代电子技术,2019,42(12):117-121. 被引量：15
6杨梦,胡志希,李琳,钟森杰,姚涛,李学思.中医脉诊的源流与发展[J].河南中医,2019,39(6):829-832. 被引量：16
7刘华祠.基于传统机器学习与深度学习的图像分类算法对比分析[J].电脑与信息技术,2019,27(5):12-15. 被引量：27
8任师攀,彭一宁.基于软投票融合模型的消费信贷违约风险评估研究[J].金融理论与实践,2020(4):77-83. 被引量：5
9史明华,吴广潮.基于聚类混合采样的不平衡数据分类[J].计算机与现代化,2020,0(5):34-38. 被引量：3
10张家伟,郭林明,杨晓梅.针对不平衡数据的过采样和随机森林改进算法[J].计算机工程与应用,2020,56(11):39-45. 被引量：36

引证文献2

1刘启超,徐红,林卓胜,朱嘉健,刘慧琳,吴欣,冯跃.基于加权软投票融合模型的脉象信号识别研究[J].世界科学技术-中医药现代化,2023,25(8):2883-2891. 被引量：1
2邓明阳,郭应时,刘通.基于分层重组的不平衡数据采样方法研究[J].重庆理工大学学报（自然科学）,2021,35(8):122-128. 被引量：3

二级引证文献4

1李京泰,王晓丹.基于代价敏感激活函数XGBoost的不平衡数据分类方法[J].计算机科学,2022,49(5):135-143. 被引量：7
2于勤丽,于海征.基于改进SMOTE自适应集成的信用风险评估模型[J].重庆理工大学学报（自然科学）,2022,36(7):293-302. 被引量：1
3刘洪旭,韩红桂,杨洪燕.知识和数据驱动的多时间尺度采样系统建模方法[J].北京工业大学学报,2023,49(4):395-402.
4赵玉程,李英建,沈世民,韩玉喜,宋杰.基于网格搜索和投票分类模型的喷油器故障诊断研究[J].机床与液压,2024,52(5):213-220.

1罗丹.一种基于多维高斯云模型的过采样方法[J].周口师范学院学报,2020(2):104-107. 被引量：1
2黄德根,张云霞,林红梅,邹丽,刘壮.基于规则推理网络的分类模型[J].软件学报,2020,31(4):1063-1078. 被引量：7
3郭朝有,许喆,马砚堃,曹蒙蒙.面向不平衡数据集融合Canopy和K-means的SMOTE改进算法[J].科学技术与工程,2020,20(22):9069-9074. 被引量：8
4曹杨,王晨曦,赵晓莉,刘炜桦.成都市PM2.5污染特征及其与地面气象要素的关系分析[J].中低纬山地气象,2020,44(4):59-64. 被引量：13
5潘崇煜,黄健,郝建国,龚建兴,张中杰.融合零样本学习和小样本学习的弱监督学习方法综述[J].系统工程与电子技术,2020,42(10):2246-2256. 被引量：14
6沈冬东,汪海涛,姜瑛,陈星.基于知识图谱嵌入与多神经网络的序列推荐算法[J].计算机工程与科学,2020,42(9):1661-1669. 被引量：9
7张秦川.企业盈余管理手段与识别方法的研究[J].商场现代化,2020(17):160-162. 被引量：2
8张彩霞,王子涵,文成林,刘国文,余伟.样本空间基于多级高维特征表示的微小故障诊断[J].电子学报,2020,48(8):1647-1654. 被引量：8
9赵宇.“一二三四”识别假冒注册商标[J].中华商标,2020(8):55-55.
10庞雪茹.面向网络安全的有害信息智能识别算法研究[J].电子设计工程,2020,28(18):71-75. 被引量：1

计算机与数字工程

2020年第8期

浏览历史

内容加载中请稍等...

一种基于样本学习复杂度的不平衡数据过采样方法被引量：2

同被引文献17

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种基于样本学习复杂度的不平衡数据过采样方法 被引量：2

同被引文献17

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种基于样本学习复杂度的不平衡数据过采样方法被引量：2