摘要
在实际应用中,经常遇到数据分类集合中某一类的样本数量明显少于其他类的样本数量的数据不平衡问题.在二分类数据集中,一般称样本数目多的一类数据集合为正类,样本数目少的一类数据集合为负类.为了提高算法在不平衡数据集下的分类性能,提出了首先利用K-means找出负类中心点,再根据SMOTE基本原理,得出新的数据集.通过对比新数据集和原不平衡数据集在不同算法中的分类应用,结果表明本文改进算法的分类效果得到明显提升,最后用两两配对T检验验证算法的有效性.
In practice,we always meet the number of some datasets significantly less than the others,in two-class datasets,we named the more as positive class,the less as negative class.In the case of unbalanced datasets,classification isn't ideal,in order to improve the algorithm under the unbalanced datasets.Firstly we put forward by K-means to find the center of the negative class,coupled with SMOTE,get a new dataset.By comparing the new dataset and unbalanced datasets,the results show that classification is improved.
出处
《数学的实践与认识》
北大核心
2015年第19期198-206,共9页
Mathematics in Practice and Theory
基金
国家自然科学基金(11401115)
广东省科技创新项目(13KJ0396)
广东省科技计划项(2013B051000075)