-
题名面向非平衡类问题的k近邻分类算法
被引量:16
- 1
-
-
作者
郭华平
周俊
邬长安
范明
-
机构
信阳师范学院计算机与信息技术学院
郑州大学信息工程学院
-
出处
《计算机应用》
CSCD
北大核心
2018年第4期955-959,977,共6页
-
文摘
针对k近邻(k NN)方法不能很好地解决非平衡类问题,提出一种新的面向非平衡类问题的k近邻分类算法。与传统k近邻方法不同,在学习阶段,该算法首先使用划分算法(如K-Means)将多数类数据集划分为多个簇,然后将每个簇与少数类数据集合并成一个新的训练集用于训练一个k近邻模型,即该算法构建了一个包含多个k近邻模型的分类器库。在预测阶段,使用划分算法(如K-Means)从分类器库中选择一个模型用于预测样本类别。通过这种方法,提出的算法有效地保证了k近邻模型既能有效发现数据局部特征,又能充分考虑数据的非平衡性对分类器性能的影响。另外,该算法也有效地提升了k近邻的预测效率。为了进一步提高该算法的性能,将合成少数类过抽样技术(SMOTE)应用到该算法中。KEEL数据集上的实验结果表明,即使对采用随机划分策略划分的多数类数据集,所提算法也能有效地提高k近邻方法在评价指标recall、g-mean、f-measure和AUC上的泛化性能;另外,过抽样技术能进一步提高该算法在非平衡类问题上的性能,并明显优于其他高级非平衡类处理方法。
-
关键词
非平衡类技术k近邻
划分
过抽样
-
Keywords
class-imbalanced problem
k-Nearest Neighbor(kNN)
partitioning
oversampling
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-