-
题名基于自适应邻域与聚类的非平衡数据特征选择
被引量:1
- 1
-
-
作者
孙林
梁娜
王欣雅
-
机构
天津科技大学人工智能学院
河南师范大学计算机与信息工程学院
河南中豫建设投资集团股份有限公司
-
出处
《计算机工程与应用》
CSCD
北大核心
2024年第14期74-85,共12页
-
基金
国家自然科学基金(62076089,61772176)。
-
文摘
为了解决传统邻域粗糙集未考虑不平衡数据的类分布,多数邻域系统通过人工调试难以找到最佳邻域半径,以及聚类时指定簇的数目等问题,提出一种基于自适应邻域与聚类的非平衡数据特征选择方法。根据样本在各个特征下与其他样本距离的平均值来确定样本的自适应k近邻和共享近邻,定义自适应邻域密度并设计混合采样模型,构建平衡决策系统。基于特征分布定义新的邻域半径,使用高斯核函数研究邻域内样本之间的模糊相似关系,使用模糊邻域互信息度量特征间的相关性,基于此对特征进行聚类。基于模糊邻域互信息构造粒子群初始化策略,并引入动态位掩码策略与适合整数编码的差异性扰动算子,改进整型粒子群优化算法,实现从特征簇中选出代表性特征构成最终的特征子集。在19个非平衡数据集的实验结果表明所设计的算法有效地提高了非平衡数据的分类性能。
-
关键词
自适应邻域
混合采样
模糊邻域互信息
特征聚类
特征选择
-
Keywords
adaptive neighborhood
hybrid sampling
fuzzy neighborhood mutual information
feature clustering
feature selection
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-