基于自适应邻域与聚类的非平衡数据特征选择被引量：1

Feature Selection Using Adaptive Neighborhood and Clustering for Imbalanced Data

下载PDF

导出

摘要为了解决传统邻域粗糙集未考虑不平衡数据的类分布,多数邻域系统通过人工调试难以找到最佳邻域半径,以及聚类时指定簇的数目等问题,提出一种基于自适应邻域与聚类的非平衡数据特征选择方法。根据样本在各个特征下与其他样本距离的平均值来确定样本的自适应k近邻和共享近邻,定义自适应邻域密度并设计混合采样模型,构建平衡决策系统。基于特征分布定义新的邻域半径,使用高斯核函数研究邻域内样本之间的模糊相似关系,使用模糊邻域互信息度量特征间的相关性,基于此对特征进行聚类。基于模糊邻域互信息构造粒子群初始化策略,并引入动态位掩码策略与适合整数编码的差异性扰动算子,改进整型粒子群优化算法,实现从特征簇中选出代表性特征构成最终的特征子集。在19个非平衡数据集的实验结果表明所设计的算法有效地提高了非平衡数据的分类性能。 To solve the problems that the traditional neighborhood rough sets do not consider the class-distribution of imbalanced data,and it is difficult for most neighborhood systems to find the optimal neighborhood radius through manual debugging and the number of clusters needs to be specified in clustering,a feature selection method for imbalanced data based on adaptive neighborhood and clustering is proposed.Firstly,the adaptive K-nearest neighbors and shared nearest neighbors of samples are determined according to the average distance between the samples and other samples under each feature,and then the hybrid sampling model is designed based on adaptive neighborhood density to develop the balanced decision systems.Secondly,a new neighborhood radius is defined based on the feature distribution,the Gaussian kernel function is used to research the fuzzy similarity relationship between samples in the neighborhood.The fuzzy neighborhood mutual information is proposed to measure the correlation between features,and features are clustered based on this.Finally,the particle swarm initialization strategy is designed based on fuzzy neighborhood mutual information.To improve the integer particle swarm optimization algorithm,the dynamic bit mask strategy and the differential perturbation operator suitable for integer coding are introduced,and the representative features are selected from the feature cluster to form the final feature subset.The experimental results on 19 imbalanced datasets show that the developed algorithm can effectively improve the classification effect of imbalanced data.

作者孙林梁娜王欣雅 SUN Lin;LIANG Na;WANG Xinya(College of Artificial Intelligence,Tianjin University of Science and Technology,Tianjin 300457,China;College of Computer and Information Engineering,Henan Normal University,Xinxiang,Henan 453007,China;Henan Zhongyu Construction Investment Group Company Ltd.,Zhengzhou 450000,China)

机构地区天津科技大学人工智能学院河南师范大学计算机与信息工程学院河南中豫建设投资集团股份有限公司

出处《计算机工程与应用》 CSCD 北大核心 2024年第14期74-85,共12页 Computer Engineering and Applications

基金国家自然科学基金(62076089,61772176)。

关键词自适应邻域混合采样模糊邻域互信息特征聚类特征选择 adaptive neighborhood hybrid sampling fuzzy neighborhood mutual information feature clustering feature selection

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献12

1严远亭,马迎澳,任艳平,张燕平.基于构造性神经网络与全局密度信息的不平衡数据欠采样方法[J].计算机科学,2023,50(10):48-58. 被引量：2
2李京泰,王晓丹.基于代价敏感激活函数XGBoost的不平衡数据分类方法[J].计算机科学,2022,49(5):135-143. 被引量：7
3侯天宝,王爱银.基于Stacking特征增强多粒度联级Logistic的个人信用评估[J].河南师范大学学报（自然科学版）,2023,51(3):111-122. 被引量：4
4杨洁,匡俊成,王国胤,刘群.代价敏感的多粒度邻域粗糙模糊集的近似表示[J].计算机科学,2023,50(5):137-145. 被引量：3
5刘艳,程璐,孙林.基于K-S检验和邻域粗糙集的特征选择方法[J].河南师范大学学报（自然科学版）,2019,47(2):21-28. 被引量：33
6孙林,徐枫,李硕,王振.基于ReliefF和最大相关最小冗余的多标记特征选择[J].河南师范大学学报（自然科学版）,2023,51(6):21-29. 被引量：7
7陈盼盼,林梦雷,刘景华,林国平.基于邻域粗糙集的多标记属性约简算法[J].闽南师范大学学报（自然科学版）,2018,31(4):1-11. 被引量：2
8李顺勇,王改变,余曼.基于相似性特征聚类的加权无监督特征选择算法[J].贵州师范大学学报（自然科学版）,2021,39(1):49-57. 被引量：2
9王琛,董永权.基于二进制灰狼优化的特征选择及文本聚类[J].计算机工程与设计,2021,42(9):2526-2535. 被引量：10
10李冰晓,万睿之,朱永杰,赵新超.基于种群分区的多策略综合粒子群优化算法[J].河南师范大学学报（自然科学版）,2022,50(3):85-94. 被引量：17

二级参考文献86

1张丽新,王家廞,赵雁南,杨泽红.基于Relief的组合式特征选择[J].复旦学报（自然科学版）,2004,43(5):893-898. 被引量：44
2陈卫中,倪宗瓒,潘晓平,刘元元,夏彦.用ROC曲线确定最佳临界点和可疑值范围[J].现代预防医学,2005,32(7):729-731. 被引量：208
3李德毅,孟海军,史雪梅.隶属云和隶属云发生器[J].计算机研究与发展,1995,32(6):15-20. 被引量：1238
4王卫玲,刘培玉,初建崇.一种改进的基于条件互信息的特征选择算法[J].计算机应用,2007,27(2):433-435. 被引量：23
5胡旺,李志蜀.一种更简化而高效的粒子群优化算法[J].软件学报,2007,18(4):861-868. 被引量：334
6王玲,薄列峰,焦李成.密度敏感的谱聚类[J].电子学报,2007,35(8):1577-1581. 被引量：61
7胡清华,赵辉,于达仁.基于邻域粗糙集的符号与数值属性快速约简算法[J].模式识别与人工智能,2008,21(6):732-738. 被引量：82
8朱孝开,杨德贵.基于推广能力测度的多类SVDD模式识别方法[J].电子学报,2009,37(3):464-469. 被引量：20
9张丽娟,李舟军.微阵列数据癌症分类问题中的基因选择[J].计算机研究与发展,2009,46(5):794-802. 被引量：19
10王娜,李霞.基于监督信息特性的主动半监督谱聚类算法[J].电子学报,2010,38(1):172-176. 被引量：33

共引文献85

1申华磊,邱鹏.CF患者肺组织分类——基于相关反馈的监督核哈希方法[J].河南师范大学学报（自然科学版）,2019,47(4):24-30.
2孙月霞.基于图论思想的人际关系网络定量分析[J].科学与信息化,2019,0(19):174-175. 被引量：1
3谢娟英,丁丽娟,王明钊.基于谱聚类的无监督特征选择算法[J].软件学报,2020,31(4):1009-1024. 被引量：35
4刘艳芳,李文斌,高阳.基于自适应邻域嵌入的无监督特征选择算法[J].计算机研究与发展,2020,57(8):1639-1649. 被引量：9
5韩素敏,郑书晴,何永盛.基于粗糙集贪心算法的逆变器开路故障诊断[J].电力系统保护与控制,2020,48(17):122-130. 被引量：12
6李想,李原,张子飞,杨哲.基于密度聚类的网络性能故障大数据分析方法[J].电信科学,2020,36(9):51-58. 被引量：3
7葛峰,韩建立,张光宇.基于通用对数线性模型的多应力加速寿命试验预测方法[J].兵工自动化,2020,39(10):10-14. 被引量：2
8饶先胜,宋晶晶,杨习贝,于化龙,王平心.伪标签邻域粗糙集下的属性约简加速策略[J].计算机工程与设计,2020,41(11):3087-3093. 被引量：2
9张敏,周治平.结合度量融合和地标表示的自编码谱聚类算法[J].智能系统学报,2020,15(4):687-696. 被引量：1
10孙林,赵婧,徐久成,薛占熬.基于改进帝王蝶优化算法的特征选择方法[J].模式识别与人工智能,2020,33(11):981-994. 被引量：13

同被引文献3

1陈杰,张浩天,汤奕.基于改进生成式对抗网络的电网异常数据辨识方法[J].电力建设,2021,42(5):9-15. 被引量：17
2姜午恺,周平.非平衡数据下基于自适应迁移与宽度学习的多工况故障诊断[J].中国科学：信息科学,2023,53(5):946-971. 被引量：2
3金鸣骐.基于智能优化算法的配电自动化系统运维管理分析[J].集成电路应用,2024,41(3):222-223. 被引量：2

引证文献1

1陆宏波.面向业务异常数据的伪标签半监督故障诊断方法[J].科学技术创新,2024(22):101-104.

1徐金华,汪飞,韩飞,李岩.一种多车辆协同多植保无人机作业路径规划方法[J].东北大学学报（自然科学版）,2024,45(2):296-304.
2甘雨晴.基于依赖度的时序数据的特征选择方法[J].应用数学进展,2024,13(5):2172-2179.
3马汉达,梁文德.推荐系统中混合难负样本的生成模型[J].软件导刊,2024,23(7):133-137.
4邓蕊欣,李达,金德泉.基于熵的微阵列数据特征选择[J].广西大学学报（自然科学版）,2024,49(3):637-643.
5李俊霞,田勇,汤安.基于多核模糊条件熵的多类型混合数据属性约简算法[J].电子器件,2024,47(2):483-489.
6张甲,谢杰华,邹娓,马志鹏.具有倍乘单次转换特性的效用函数研究[J].运筹与管理,2024,33(5):140-146.
7李旺,柳伍生,肖义萍,李薇,周清.通勤合乘路径优化模型与算法[J].控制理论与应用,2024,41(6):1101-1110. 被引量：1
8王有远,董博文.考虑序列相关准备时间的分布式柔性作业车间调度研究[J].工业工程,2024,27(3):78-86.
9刘嘉,杨林军.“单元一课时”教学设计及点评--“5.3导数在研究函数中的应用”[J].中小学数学（高中版）,2024(6):49-51.
10赵静,王紫.有界线性算子的谱半径与扰动[J].哈尔滨商业大学学报（自然科学版）,2024,40(3):346-349.

计算机工程与应用

2024年第14期

浏览历史

内容加载中请稍等...

基于自适应邻域与聚类的非平衡数据特征选择被引量：1

参考文献12

二级参考文献86

共引文献85

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于自适应邻域与聚类的非平衡数据特征选择 被引量：1

参考文献12

二级参考文献86

共引文献85

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于自适应邻域与聚类的非平衡数据特征选择被引量：1