基于KPCA的不平衡数据欠抽样算法

KPCA-Based Under-Sampling Algorithm for Unbalanced Data

下载PDF

导出

摘要在现实世界的分类任务中,不平衡数据通常呈现非线性分布的特点,而传统的抽样方法难以有效处理这些非线性,导致分类效果不佳。为了解决这个问题,本文提出了一种基于核主成分分析(KPCA)的欠抽样方法。该方法通过使用非线性核函数将原始数据映射到适当的高维空间使其线性化,然后根据每个样本在核主成分上的得分来选择性地删除多数类样本,从而实现欠抽样。在9组具有不同平衡率的数据集上,采用本文提出的方法进行了欠抽样预处理,并使用逻辑回归(Logistic Regression)分类器进行分类。实验结果表明,在Accuracy、F1-measure和AUC值三个指标中,本文方法分别在7组、8组和9组数据集上取得了最高评分。这表明该方法在不平衡数据集上具有良好的分类性能。The unbalanced data in the real classification task are mostly characterized by nonlinear distribution, and the traditional sampling method is not good at dealing with this kind of nonlinearity resulting in unsatisfactory sample classification effect. Aiming at this problem, an under-sampling method based on KPCA is proposed. The method maps the original data to a suitable high-dimensional space to make it linearly divisible by nonlinearly transforming the kernel function, and de-redundantly removes the majority class by calculating the scores of individual samples on the kernel principal components in order to achieve the purpose of under-sampling. After the under-sampling preprocessing of nine datasets with different balance rates, the classification is performed using Logistic Regression classifier model. The experimental results show that the algorithm of this paper obtains the highest evaluation metrics under Accuracy, F1-measure and AUC value scores under 7, 8 and 9 groups of datasets, respectively, which shows that the method has a good classification performance on unbalanced datasets.

作者王晓玲金永超刘威伟王希胤

机构地区华北理工大学理学院河北省数据科学与应用重点实验室

出处《应用数学进展》 2024年第9期4108-4118,共11页 Advances in Applied Mathematics

关键词不平衡数据欠抽样核主成分分析分类

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献7

1陈将宏,张渊渊.核主成分分析中核参数选择的遗传算法[J].计算机与现代化,2011(11):1-2. 被引量：1
2吴今培.基于核函数的主成分分析及应用[J].系统工程,2005,23(2):117-120. 被引量：28
3潘继斌.核函数的概念、性质及其应用[J].湖北师范学院学报（自然科学版）,2007,27(1):10-12. 被引量：4
4雷银香,熊科云.中医药领域不平衡数据的特征选择和分类方法研究[J].信息与电脑,2023,35(24):55-57. 被引量：1
5赵丽红,孙宇舸,蔡玉,徐心和.基于核主成分分析的人脸识别[J].东北大学学报（自然科学版）,2006,27(8):847-850. 被引量：17
6陈祥涛,张前进.基于核主成分分析的步态识别方法[J].计算机应用,2011,31(5):1237-1241. 被引量：8
7李昂,韩萌,穆栋梁,高智慧,刘淑娟.多类不平衡数据分类方法综述[J].计算机应用研究,2022,39(12):3534-3545. 被引量：13

二级参考文献52

1赵丽红,孙宇舸,蔡玉,徐心和.基于核主成分分析的人脸识别[J].东北大学学报（自然科学版）,2006,27(8):847-850. 被引量：17
2Vladimir N Vapnik. The Nature of Statistical Learning The- ory [ M ]. NY: Springer-Verlag, 1995.
3Shawe-Tayor J, Cristianini N. Kernel Methods for Pattern Analysis[ M]. Cambridge University Press,2004.
4Schlkopf B, Smola A J. Learning with Kernels [ M ]. Lon- don: MIT Press ,2002.
5Mika S,Ratsch G,Weston J,et al. Fisher discriminant anal- ysis with kernels [ C 1/'/Proceedings of the 1999 IEEE Sig-nal Processing Society Workshop, Neural Networks for Sig- nal Processing IX. 1999:41-48.
6Smola A J, Schlkopf B. Generalized Discriminal Analysis [ DB/OL]. http ://www. kernel-machines, org/,2005-03-15.
7Seholkopf B, Smola A, Muller K R. Nonlinear component a- nalysis as a kernel Eigen-value problem [ J ]. Neural Com- putation, 1998,10 (6) : 1299-1319.
8Mike S, Scholkopf B, Smola A. Kernel PCA and denoising in feature space [ J ]. Advances in Neural Information Pro- cessing Systems, 1999,11:536-524.
9Keethi S, Lin C J. Asymptotic behaviors of support vector machines with Gaussian kernel[ J ]. Netural Computation, 2003,15(7) :1667-1689.
10Schlkopf Bernhard ,Smola Alexander J. Support Vector Learn- ing[ M]. R. Oldenbourg Verlag,Mtmich,1997.

共引文献64

1李川,伍依凡,杨帅.不平衡分布的数据驱动故障诊断的研究进展[J].仪器仪表学报,2023,44(8):181-197. 被引量：6
2王艳梅,张艳珠,郑成文.基于支持向量机的人脸识别方法的研究[J].控制工程,2013,20(S1):195-197. 被引量：3
3卢艳超,张彩庆.基于核函数的PCA-LINMAP模型的电源结构优化评价[J].华东电力,2006,34(8):88-91. 被引量：6
4王华.基于核函数PCA的柔性薄板装配偏差源诊断[J].机械强度,2007,29(3):433-436. 被引量：4
5陈德运,张华,朱波,于晓洋,张健沛.油水两相流电阻层析成像系统流型的辨识[J].电机与控制学报,2007,11(6):639-643. 被引量：7
6廖舸,王正勇,吴晓红,罗代升,雷印杰.一种基于分块个体子空间的人脸识别方法[J].激光杂志,2008,29(3):23-25.
7郑天驰.县域GDP短期预测模型的建立与应用[J].生产力研究,2008(9):95-96. 被引量：2
8肖泽群,肖万春,文建龙.区域信息力及其与区域经济发展相关性[J].系统工程,2008,26(6):58-67. 被引量：1
9刘素京,杨琳,王从庆.基于核主成分分析和支持向量机的飞机舱音信号识别[J].东南大学学报（自然科学版）,2008,38(A02):123-127. 被引量：4
10牛永洁,陈莉,李富星.KPCA与GRNN在含能化合物QSAR中的应用研究[J].计算机应用与软件,2009,26(7):112-114.

1张晓鹏,秦亮曦.一种不平衡数据多策略处理及组合分类算法[J].计算机应用与软件,2024,41(4):242-250.
2张成,李朝阳.基于改进的KELM轴承故障诊断算法[J].工业控制计算机,2024,37(9):59-61.
3冯芝丽,郭李平.基于IVMD-KPCA-LSTM的超短期风电功率预测[J].湖南工业职业技术学院学报,2024,24(4):11-18.
4定语从句[J].时代英语（高三版）,2024(3):82-83.
5奚旺,张进,朱卫东.一种基于无监督学习算法的鱼探仪底质回波分类[J].中国科技信息,2024(19):126-130.
6高超,田彦明.基于量子退火算法的大数据模糊随机挖掘方法[J].信息技术与信息化,2024(8):177-180.
7Liu Xiaojun,Li Yanlin,Jin Donghui,An Shi,Zhang Wei.Fluorescent Target Screen Image Data Preprocessing[J].IMP & HIRFL Annual Report,2022(1):314-314.
8李天宇,马刚,李豪,李伟康,孟宇翔.基于CKL风电容量预测的可信度评估[J].电气自动化,2024,46(5):4-7.
9吴静,王子武,冯雁来,金诚.非线性均衡约束下的光纤数据抗干扰通信方法[J].通化师范学院学报,2024,45(8):49-55. 被引量：1
10刘兴国,梁建军,徐培彬,黄巍.寒区系杆拱桥桥面横向温度模式及静力性能[J].辽宁工程技术大学学报（自然科学版）,2024,43(4):463-470.

应用数学进展

2024年第9期

浏览历史

内容加载中请稍等...

基于KPCA的不平衡数据欠抽样算法

参考文献7

二级参考文献52

共引文献64

相关作者

相关机构

相关主题

浏览历史