基于空间近邻关系的非平衡数据重采样算法被引量：3

Resampling algorithm for imbalanced data based on their neighbor relationship

下载PDF

导出

摘要为了提高非平衡数据集的分类精度,提出了一种基于样本空间近邻关系的重采样算法.该方法首先根据数据集中少数类样本的空间近邻关系进行安全级别评估,根据安全级别有指导的采用合成少数类过采样技术(Synthetic minority oversampling technique,SMOTE)进行升采样;然后对多数类样本依据其空间近邻关系计算局部密度,从而对多数类样本密集区域进行降采样处理.通过以上两种手段可以均衡测试数据集,并控制数据规模防止过拟合,实现对两类样本分类的均衡化.采用十折交叉验证的方式产生训练集和测试集,在对训练集重采样之后,以核超限学习机作为分类器进行训练,并在测试集上进行验证.在UCI非平衡数据集和电路故障诊断实测数据上的实验结果表明,所提方法在整体上优于其他重采样算法. The classification of imbalanced data has become a crucial and significant research issue in many data-intensive applications.The minority samples in such applications usually contain important information.This information plays an important role in data analysis.At present,two methods(improved algorithm and data set reconstruction)are used in machine learning and data mining to address the data set imbalance.Data set reconstruction is also known as the resampling method,which can modify the proportion of every class in the training data set without modifying the classification algorithm and has been widely used.As artificially increasing or reducing samples inevitably results in the increase in noise and loss of original data information,thus reducing the classification accuracy.A reasonable oversampling and undersampling algorithm are the core of the resampling method.To improve the classification accuracy of imbalanced data sets,a resampling algorithm based on the neighbor relationship of sample space was proposed.This method first evaluated the security level according to the spatial neighbor relations of minority samples and oversampled them through the synthetic minority oversampling technique guided by their security level.Then,the local density of majority samples was calculated according to their spatial neighbor relation to undersample the majority samples in a sample-intensive area.By the above two means,the data set can be balanced and the data size can be controlled to prevent overfitting to realize the classification equalization of the two categories.The training set and test set were generated via the method of 5×10 fold cross validation.After resampling the training set,the kernel extreme learning machine(KELM)was used as the classifier for training,and the test set was used for verification.The experimental results on a UCI imbalanced data set and measured circuit fault diagnosis data show that the proposed method is superior to other resampling algorithms.

作者李睿峰李文海孙艳丽吴阳勇 LI Rui-feng;LI Wen-hai;SUN Yan-li;WU Yang-yong(Naval Aviation University,Yantai 264001,China)

机构地区海军航空大学

出处《工程科学学报》 EI CSCD 北大核心 2021年第6期862-869,共8页 Chinese Journal of Engineering

基金军内科研项目“新一代航空电子装备测试关键技术研究”资助项目(4172122113R)。

关键词非平衡数据近邻关系重采样局部密度分类 imbalanced data neighbor relationship resample local density classification

分类号 TP206.1 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献14

1高明哲,许爱强,许晴.SL-SMOTE和CS-RVM结合的电子设备故障检测方法[J].计算机工程与应用,2019,55(4):185-192. 被引量：11
2冯宏伟,姚博,高原,王惠亚,冯筠.基于边界混合采样的非均衡数据处理算法[J].控制与决策,2017,32(10):1831-1836. 被引量：19
3古平,欧阳源遊.基于混合采样的非平衡数据集分类研究[J].计算机应用研究,2015,32(2):379-381. 被引量：14
4蔡艳艳,宋晓东.针对非平衡数据分类的新型模糊SVM模型[J].西安电子科技大学学报,2015,42(5):120-124. 被引量：19
5王春玉,苏宏业,渠瑜,褚健.一种基于过抽样技术的非平衡数据集分类方法[J].计算机工程与应用,2011,47(1):139-143. 被引量：8
6张银峰,郭华平,职为梅,范明.一种面向不平衡数据分类的组合剪枝方法[J].计算机工程,2014,40(6):157-161. 被引量：12
7翟云,杨炳儒,王树鹏,张德政,安冰.基于协同进化机制的欠采样方法[J].北京科技大学学报,2011,33(12):1550-1557. 被引量：1
8赵自翔,王广亮,李晓东.基于支持向量机的不平衡数据分类的改进欠采样方法[J].中山大学学报（自然科学版）,2012,51(6):10-16. 被引量：16
9刘余霞,刘三民,刘涛,王忠群.一种新的过采样算法DB_SMOTE[J].计算机工程与应用,2014,50(6):92-95. 被引量：12
10谷琼,袁磊,宁彬,吴钊,华丽,李文新.一种基于混合重取样策略的非均衡数据集分类算法[J].计算机工程与科学,2012,34(10):128-134. 被引量：22

二级参考文献156

1许建华,张学工,李衍达.支持向量机的新发展[J].控制与决策,2004,19(5):481-484. 被引量：132
2陈振洲,李磊,姚正安.基于SVM的特征加权KNN算法[J].中山大学学报（自然科学版）,2005,44(1):17-20. 被引量：51
3邱保志,沈钧毅.网格聚类中的边界处理技术[J].模式识别与人工智能,2006,19(2):277-280. 被引量：13
4邱保志,沈钧毅.基于扩展和网格的多密度聚类算法[J].控制与决策,2006,21(9):1011-1014. 被引量：25
5Han Jiawei, Kamber M. Data Mining : Concepts and Techniques. Orlando, USA: Morgan Kaufmann Publishers, 2001.
6Xia Chenyi, Hsu W, Lee M L, et al. BORDER: Efficient Computation of Boundary Points. IEEE Trans on Knowledge and Data Engineering, 2006, 18(3) : 289 -303.
7Hsu C M, Chen M S. Subspace Clustering of High Dimensional Spatial Data with Noises// Proc of the Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining. Sydney, Australia, 2004:31 -40.
8Breunig M M, Kriegel H P, Ng R T, et al. LOF: Identifying Density-Based Local Outliers// Proc of the ACM SIGMOD International Conference on Management of Data. Dalles, USA, 2000:93 - 104.
9Karypis G, Ham E H, Kumar V. Chameleon : A Hierarchical Clustering Algorithm Using Dynamic Modeling. IEEE Computer, 1999, 32 (8) : 68 -75.
10Elkan C,The foundations of cost-sensitive leaming[C]//Proc of the 17th International Joint Conference on Artificial Intelligence (IJCA I'01) ,2001:973-978.

共引文献139

1向菲,谢耀谈.基于混合采样与迁移学习的患者评论识别模型[J].数据分析与知识发现,2020,4(2):39-47. 被引量：2
2程凤伟.基于划分融合的非平衡SVM分类算法[J].山西大学学报（自然科学版）,2021,44(1):56-61.
3郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：14
4邱保志,琚长涛.具有聚类功能的边界检测技术的研究[J].计算机工程与应用,2010,46(20):133-137. 被引量：3
5王桂芝,李井竹,狄志超.支持k-离群度的边界点检测方法[J].计算机工程与应用,2011,47(33):140-142. 被引量：7
6陆慧娟,张金伟,马小平,杨小兵.基于特征选择的过抽样算法的研究[J].电信科学,2012,28(1):87-91. 被引量：1
7彭栋栋,曹凯,陈峰.道路交通拥挤水平分类方法研究[J].山东理工大学学报（自然科学版）,2012,26(1):54-57. 被引量：1
8刘双喜,王盼,张春庆,王金星.基于优化DBSCAN算法的玉米种子纯度识别[J].农业机械学报,2012,43(4):188-192. 被引量：17
9黄浩,何钦铭,陈奇,钱烽,何江峰,马连航.基于加权边界度的稀有类检测算法[J].软件学报,2012,23(5):1195-1206. 被引量：6
10邱保志,杨洋,杜效伟.BRINK:基于局部质变因子的聚类边界检测算法[J].郑州大学学报（工学版）,2012,33(3):117-120. 被引量：4

同被引文献38

1许承权,范千.基于ICEEMD-ICA与MDP准则的变形监测数据去噪方法[J].武汉大学学报（信息科学版）,2021,46(11):1658-1665. 被引量：8
2焦盛岚,杨炳儒,翟云,赵万里.一种用于非平衡数据分类的集成学习模型[J].计算机工程与应用,2012,48(29):119-123. 被引量：5
3王超学,潘正茂,董丽丽,马春森,张星.基于改进SMOTE的非平衡数据集分类研究[J].计算机工程与应用,2013,49(2):184-187. 被引量：19
4马英英,刘帅,金铭.基于数据插值的二维MUSIC谱峰搜索算法[J].现代电子技术,2015,38(15):35-38. 被引量：4
5刘玉敏,周昊飞.基于MSVM的多品种小批量动态过程在线质量智能诊断[J].中国机械工程,2015,26(17):2356-2363. 被引量：12
6高真,叶学义,周天琪,宋倩倩.基于反距离加权插值的水声数据可视化算法[J].计算机工程,2015,41(9):266-270. 被引量：17
7周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251. 被引量：1736
8岳应娟,王旭,蔡艳平.基于递归灰度图局部二值特征的故障诊断方法[J].计算机应用研究,2018,35(9):2700-2703. 被引量：2
9侯贝贝,刘三阳,普事业.基于边界混合重采样的非平衡数据分类方法[J].计算机工程与应用,2020,56(1):46-52. 被引量：20
10娄建楼,李燕,王琦,孙博,贾俊奇.基于改进堆栈降噪自编码器的锅炉设备在线监测数据清洗方法[J].计算机集成制造系统,2019,25(12):3181-3190. 被引量：11

引证文献3

1刘欢,李富年,颜永逸,宋晓东,杨国静,林俊平.DBSCAN和GRU算法在桥梁监测系统的研究[J].现代电子技术,2022,45(20):114-118. 被引量：1
2王宁,王一涵,李盼盼,郭梓昱.基于SMOTE-1DCNN的复杂制造过程质量异常诊断[J].统计与决策,2023,39(14):183-188.
3徐莎莎,胡靖,吕牡丹.基于ICA改进ICEEMD的UDS重采样数学模型[J].计算机仿真,2024,41(7):535-539.

二级引证文献1

1夏艺丹,李乔宇,施俊帆.混合特征的涉诈类APP分析模型的构建与研究[J].计算机时代,2023(12):81-84.

1胡昊天,吉晋锋,王东波,邓三鸿.基于深度学习的食品安全事件实体一体化呈现平台构建[J].数据分析与知识发现,2021,5(3):12-24. 被引量：3
2于安池,储茂祥,杨永辉,董秀.具有强化学习策略的决策树算法[J].合肥工业大学学报（自然科学版）,2021,44(5):616-620. 被引量：10
3陈珑云,朱笑云.沉井式地下停车库促进城市有机更新[J].地下空间与工程学报,2021,17(2):343-349. 被引量：5
4王芳,吴文通,张立立,马瑞,徐文星.邻域自适应SMOTE算法研究[J].计算机应用研究,2021,38(6):1673-1677. 被引量：5
5琚春华,陈冠宇,鲍福光.基于kNN-Smote-LSTM的消费金融风险检测模型——以信用卡欺诈检测为例[J].系统科学与数学,2021,41(2):481-498. 被引量：16
6Imran Yousaf,Shoaib Ali,Arshad Hassan.Effect of family control on corporate dividend policy of firms in Pakistan[J].Financial Innovation,2019,5(1):711-723. 被引量：2
7凌玥,刘玉岭,姜波,李宁,卢志刚,刘宝旭.基于双层异质集成学习器的入侵检测方法[J].信息安全学报,2021,6(3):16-28. 被引量：6
8Fallah Nyumah,Joseph F. Charles,Isaac A. Bamgboye,Ademola K. Aremu,James S. Eisah.Generation, Characterization and Management Practices of Household Solid Wastes in Cowfield, Paynesville City, Liberia[J].Journal of Geoscience and Environment Protection,2021,9(4):113-127.

工程科学学报

2021年第6期

浏览历史

内容加载中请稍等...

基于空间近邻关系的非平衡数据重采样算法被引量：3

参考文献14

二级参考文献156

共引文献139

同被引文献38

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于空间近邻关系的非平衡数据重采样算法 被引量：3

参考文献14

二级参考文献156

共引文献139

同被引文献38

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于空间近邻关系的非平衡数据重采样算法被引量：3