基于Lévy分布的不平衡数据过采样方法被引量：1

Lévy-Based Oversampling Technique for Imbalanced Datasets

下载PDF

导出

摘要针对不平衡数据集上的分类问题,提出了基于Lévy分布的过采样方法,其核心思想是根据初始数据集的分布,利用Lévy分布构造新样本的密度分布。基于Lévy分布的特性,使得从边界样本合成的新样本密度最大,靠近多数类的样本合成的新样本密度次之,靠近少数类的样本合成的新样本密度最小。因此,该算法可以增强分类边界,同时可以减小噪声生成。通过在多个数据集上的实验,表明所提算法可以有效改善不平衡数据的分类效果。 For the classification problems on imbalanced datasets,a Lévy-based oversampling technique is proposed.Its essential idea is to employ Lévy distribution to construct the density distribution of synthetic samples according to the distribution of original datasets.Due to the properties of the Lévy distribution,the density of new samples synthetized from the borderlines is the largest,the density of new samples synthetized from the samples closer to the majority is the second one,and the density of new samples synthetized from the samples closer to the minority is the smallest.Thus,this approach can enhance the decision boundary and reduce the noise generation in the same time.Experiments on multiple datasets show that the proposed approach can effectively improve the classification results on imbalanced datasets.

作者张扬帆张海鹏孙俊 ZHANG Yangfan;ZHANG Haipeng;SUN Jun(School of Internet of Things Engineering, Jiangnan University, Wuxi, Jiangsu 214122, China)

机构地区江南大学物联网工程学院

出处《计算机工程与应用》 CSCD 北大核心 2019年第16期150-156,共7页 Computer Engineering and Applications

基金国家自然科学基金(No.61672263)

关键词不平衡分类 Lévy分布过采样人工合成过采样技术(SMOTE) imbalanced classification Lévy distribution oversampling Synthetic Minority Oversampling Technique(SMOTE)

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1卢晓勇,陈木生.基于随机森林和欠采样集成的垃圾网页检测[J].计算机应用,2016,36(3):731-734. 被引量：17
2杨杰明,乔媛媛,王林,曲朝阳,刘海洋.基于流形排序的动态过抽样方法研究[J].计算机应用研究,2017,34(6):1659-1662. 被引量：2
3赵清华,张艺豪,马建芬,段倩倩.改进SMOTE的非平衡数据集分类算法研究[J].计算机工程与应用,2018,54(18):168-173. 被引量：27
4胡峰,王蕾,周耀.基于三支决策的不平衡数据过采样方法[J].电子学报,2018,46(1):135-144. 被引量：30
5秦孟梅,邱建林,陆鹏程,陈璐璐,赵伟康.基于AdaBoost的类不平衡学习算法[J].计算机应用研究,2017,34(11):3229-3232. 被引量：11

二级参考文献31

1林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
2吴洪兴,彭宇,彭喜元.适用于不平衡样本数据处理的支持向量机方法[J].电子学报,2006,34(B12):2395-2398. 被引量：16
3GYONGYI Z, GARCIA-MOLINA H. Web spam taxonomy [ C]// Proceedings of the 14st International Workshop on Adversarial Information Retrieval on the Web. Chiba, Japan: AIRWeb, 2005:39-47.
4EIRON N, MCCURLEY K S. Analysis of anchor text for Web search [ C]// Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2003:459-460.
5SPIRIN N, HAN J. Survey on Web spam detection: principles and algorithms [ J]. ACM SIGKDD Explorations Newsletter, 2012, 13 (2): 50-64.
6CHANDRA A, SUAIB M. A survey on Web spam and spam 2.0 [ J]. International Journal of Advanced Research in Computer Science, 2014,4(15) : 634 -644.
7PRIETO V M, ALVAREZ M, CACHEDA F. SAAD, a content based Web spam analyzer and detector [ J]. Journal of Systems and Software, 2013, 86(11) : 2906 - 2918.
8SCARSELLI F, TSOI A C, HAGENBUCHNER M, et al. Solving graph data issues using a layered architecture approach with applications to Web spam detection [ J]. Neural Networks, 2013, 48(1) : 78 - 90.
9GAO S, ZHANG H, ZHENG X, et al. Improving SVM classifiers with link structure for Web spam detection [ J]. Journal of Computational Information Systems, 2014, 10(6) :2435 -2443.
10BREIMAN L. Random forests-- random features [J]. Machine Learning, 1999, 45 ( 1 ) : 5 - 32.

共引文献81

1穆伟蒙,宋燕,窦军.基于密度峰值聚类算法的自适应加权过采样算法[J].智能计算机与应用,2022,12(6):46-53. 被引量：1
2卢晓勇,陈木生,吴政隆,张百栈.基于免疫克隆特征选择和欠采样集成的垃圾网页检测[J].计算机应用,2016,36(7):1899-1903. 被引量：3
3张莉,孙丽娜,郭峰.在线社会网络中近似网页识别方法研究[J].微电子学与计算机,2017,34(2):141-144.
4陈木生,卢晓勇.三种用于垃圾网页检测的随机欠采样集成分类器[J].计算机应用,2017,37(2):535-539. 被引量：8
5唐燕,王苹.随机森林算法在中医药院校贫困生认定预测中的应用研究[J].中国医药导报,2017,14(14):164-168. 被引量：6
6王卫红,朱雨辰.基于N-Gram与加权分类器集成的恶意代码检测[J].浙江工业大学学报,2017,45(6):604-609. 被引量：9
7杨杰明,高聪,曲朝阳,阚中锋,高冶,常成.基于代价敏感的随机森林不平衡数据分类算法[J].科学技术与工程,2018,18(6):285-290. 被引量：9
8刘新雯.基于综合改进随机森林算法的中国财政风险预警研究[J].计算机应用与软件,2018,35(9):73-78. 被引量：3
9李蓉,黄鑫.一种黑子特征自动提取的太阳耀斑模型[J].中国科学：物理学、力学、天文学,2018,48(11):80-85. 被引量：4
10温雪岩,赵丽影,徐克生,陆光.改进的MDSMOTE与FC-SVM在不平衡数据集分类中的应用[J].哈尔滨理工大学学报,2018,23(4):87-94. 被引量：1

同被引文献3

1李阳,张亚非,苗壮,徐玉龙,王家宝,徐伟光.基于t-SNE卷积编码的图像检索方法[J].计算机应用研究,2017,34(4):1244-1248. 被引量：7
2周建伟.不平衡数据的下采样方法研究[J].计算机与数字工程,2019,47(9):2155-2160. 被引量：2
3王圆方.基于层次聚类改进SMOTE的过采样方法[J].软件,2020,41(2):201-204. 被引量：2

引证文献1

1张笑璐,邹益胜,曾大懿,彭飞,赵市教.样本不均衡下的DCGAN轴承故障诊断方法[J].机械科学与技术,2022,41(1):9-15. 被引量：6

二级引证文献6

1李川,伍依凡,杨帅.不平衡分布的数据驱动故障诊断的研究进展[J].仪器仪表学报,2023,44(8):181-197. 被引量：2
2张静,农昌瑞,杨智勇,刘镇毓,曾庆松.改进DCGAN的飞机蒙皮图像生成方法[J].兵器装备工程学报,2022,43(3):286-292. 被引量：3
3施杰,胡益嘉,王森,张溟晨,张毅杰.DCGAN结合CNN诊断不均衡小样本的滚动轴承故障[J].噪声与振动控制,2022,42(6):130-136. 被引量：4
4李敏,王瑞东,王永强.基于样本扩充的二维卷积网络轴承故障诊断[J].信息技术与信息化,2022(12):178-181.
5陈波,袁志龙,陈龙,王月明.基于生成对抗网络的车轮踏面缺陷图像生成算法研究[J].冶金自动化,2022,46(5):56-64. 被引量：2
6李梦男,李琨,叶震,高宏宇.结合SE-VAE与M1DCNN的小样本数据下轴承故障诊断[J].机械科学与技术,2024,43(5):773-780.

1谭本东,杨军,赖秋频,谢培元,李军,徐箭.基于改进CGAN的电力系统暂态稳定评估样本增强方法[J].电力系统自动化,2019,43(1):149-157. 被引量：46
2刘悦婷,李晓霞,李思璇,朱旭博.基于新改进的SVM不平衡数据集分类算法[J].石河子大学学报（自然科学版）,2018,36(5):637-643. 被引量：2
3刘定祥,乔少杰,张永清,韩楠,魏军林,张榕珂,黄萍.不平衡分类的数据采样方法综述[J].重庆理工大学学报（自然科学）,2019,33(7):102-112. 被引量：28
4冯彩英,刘玉.k-means初始聚类中心优化研究[J].计算机产品与流通,2019,0(2):152-152. 被引量：2
5张麒增,戴翰波.基于数据预处理技术的学生成绩预测模型研究[J].湖北大学学报（自然科学版）,2019,41(1):101-108. 被引量：9
6杨健兵.改进的k-means聚类算法在公交IC卡数据分析中的应用研究[J].软件工程,2019,22(5):32-34. 被引量：2
7古平,凌照.基于稀疏邻域的主动不平衡学习算法[J].现代计算机,2019,25(16):39-42.
8张文竞,廖泫栋,徐曼曼,李虹,赵海清,谢颜明.云南边境缉获甲基苯丙胺样本合成模式识别[J].刑事技术,2018,43(6):454-458. 被引量：3
9张雪松,庄严,闫飞,王伟.基于迁移学习的类别级物体识别与检测研究与进展[J].自动化学报,2019,45(7):1224-1243. 被引量：59
10韩明鸣,郭虎升,王文剑.面向非平衡多分类问题的二次合成QSMOTE方法[J].南京大学学报（自然科学版）,2019,55(1):1-13. 被引量：2

计算机工程与应用

2019年第16期

浏览历史

内容加载中请稍等...

基于Lévy分布的不平衡数据过采样方法被引量：1

参考文献5

二级参考文献31

共引文献81

同被引文献3

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于Lévy分布的不平衡数据过采样方法 被引量：1

参考文献5

二级参考文献31

共引文献81

同被引文献3

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于Lévy分布的不平衡数据过采样方法被引量：1