-
题名基于k近邻中心偏移因子的欠采样方法
- 1
-
-
作者
孟东霞
谢林燕
-
机构
河北省高校智慧金融应用技术研究中心
河北金融学院金融科技学院
国家计算机网络应急技术处理协调中心河北分中心
-
出处
《统计与决策》
北大核心
2023年第12期40-44,共5页
-
基金
河北省高校智慧金融应用技术研发中心项目(IFDC2022030C)
河北省省级科技计划资助项目(20310701D)
中央引导地方科技发展资金项目(216Z0701G)。
-
文摘
针对不平衡数据集在实际应用中分类效果较差的问题,文章提出一种基于k近邻中心偏移因子对多数类样本欠采样的数据处理方法。k近邻中心是样本的k个最近邻覆盖区域的中心点,所在位置随着k值的增加而发生偏移,偏移变化的波动程度用中心偏移因子来表示。中心偏移因子的值反映了样本周围的局部密度,数值较小的因子代表样本及其近邻处于密集区域,或近邻在样本的同一侧密集分布,样本可能为冗余样本。为了在不改变原始数据分布的前提下尽可能地删除冗余度较高的多数类样本,首先,移除多数类样本中的噪声点,计算多数类样本的中心偏移因子;然后,将多数类样本按照偏移因子的数值从低到高排序;最后,通过比较样本与k近邻的中心偏移因子来删除部分多数类样本,使数据集趋于平衡。实验使用支持向量机对多种欠采样方法平衡后的14个数据集进行了分类,实验结果表明,所提方法在大多数数据集上表现较优,有效提高了少数类的分类精度。
-
关键词
不平衡数据集
欠采样
K近邻
中心偏移因子
-
Keywords
imbalanced dataset
undersampling
k-nearest neighbor
center offset factor
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-