期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于k近邻中心偏移因子的欠采样方法
1
作者 孟东霞 谢林燕 《统计与决策》 北大核心 2023年第12期40-44,共5页
针对不平衡数据集在实际应用中分类效果较差的问题,文章提出一种基于k近邻中心偏移因子对多数类样本欠采样的数据处理方法。k近邻中心是样本的k个最近邻覆盖区域的中心点,所在位置随着k值的增加而发生偏移,偏移变化的波动程度用中心偏... 针对不平衡数据集在实际应用中分类效果较差的问题,文章提出一种基于k近邻中心偏移因子对多数类样本欠采样的数据处理方法。k近邻中心是样本的k个最近邻覆盖区域的中心点,所在位置随着k值的增加而发生偏移,偏移变化的波动程度用中心偏移因子来表示。中心偏移因子的值反映了样本周围的局部密度,数值较小的因子代表样本及其近邻处于密集区域,或近邻在样本的同一侧密集分布,样本可能为冗余样本。为了在不改变原始数据分布的前提下尽可能地删除冗余度较高的多数类样本,首先,移除多数类样本中的噪声点,计算多数类样本的中心偏移因子;然后,将多数类样本按照偏移因子的数值从低到高排序;最后,通过比较样本与k近邻的中心偏移因子来删除部分多数类样本,使数据集趋于平衡。实验使用支持向量机对多种欠采样方法平衡后的14个数据集进行了分类,实验结果表明,所提方法在大多数数据集上表现较优,有效提高了少数类的分类精度。 展开更多
关键词 不平衡数据集 欠采样 K近邻 中心偏移因子
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部