-
题名一种基于混合重取样策略的非均衡数据集分类算法
被引量:22
- 1
-
-
作者
谷琼
袁磊
宁彬
吴钊
华丽
李文新
-
机构
湖北文理学院数学与计算机科学学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2012年第10期128-134,共7页
-
基金
国家自然科学基金资助项目(61075063
61172084)
湖北省自然科学基金资助项目(2010CDB05201)
-
文摘
非均衡数据是分类中的常见问题,当一类实例远远多于另一类实例,则代表类非均衡,真实世界的分类问题存在很多类别非均衡的情况并得到众多专家学者的重视,非均衡数据的分类问题已成为数据挖掘和模式识别领域中新的研究热点,是对传统分类算法的重大挑战。本文提出了一种新型重取样算法,采用改进的SMOTE算法对少数类数据进行过取样,产生新的少数类样本,使类之间数据量基本均衡,然后再根据SMO算法的特点,提出使用聚类的数据欠取样方法,删除冗余或噪音数据。通过对数据集的过取样和清理之后,一些有用的样本被保留下来,减少了数据集规模,增强支持向量机训练执行的效率。实验结果表明,该方法在保持整体分类性能的情况下可以有效地提高少数类的分类精度。
-
关键词
分类
非均衡数据集
预处理
混合重取样
SMOTE
聚类
-
Keywords
classification
imbalanced dataset
preprocessing
hybrid resampling
SMOTE
clustering
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于改进的SMOTE和RST的新型混合重取样算法
- 2
-
-
作者
谷琼
袁磊
宁彬
吴钊
华丽
李文新
-
机构
湖北文理学院数学与计算机科学学院
-
出处
《微电子学与计算机》
CSCD
北大核心
2012年第9期83-86,共4页
-
基金
国家自然科学基金项目(61172084)
国家"八六三"计划项目(2009AA12Z117)
+1 种基金
湖北省自然科学基金项目(2010CDB05201)
湖北省教育厅中青年基金项目(Q20112604)
-
文摘
分类预测是数据挖掘和机器学习的重要任务之一,非均衡数据广泛存在于真实世界的分类问题中.本文提出一种新的解决非均衡数据集的预处理方法(ImSMOTE-RSTR*).通过改进的SMOTE方法创建新的人工合成少数类实例,并在此基础上应用基于粗糙集理论的子集下近似技术对训练集进行清理,该算法被验证得到较理想的结果.
-
关键词
分类
非均衡数据集
混合重取样
SMOTE
粗糙集理论
-
Keywords
classification
imbalanced dataset
hybrid resampling
SMOTE
rough set theory
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名一种基于重取样的代价敏感学习算法
被引量:2
- 3
-
-
作者
谷琼
袁磊
宁彬
熊启军
华丽
李文新
-
机构
襄樊学院数学与计算机科学学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2011年第9期130-135,共6页
-
基金
国家自然科学基金资助项目(61075063)
国家863计划资助项目(2009AA12Z117)
+1 种基金
湖北省自然科学基金资助项目(2010CDB05201)
湖北省教育厅中青年项目(Q20112604)
-
文摘
大多数非均衡数据集的研究集中于纯重构数据集或者纯代价敏感学习,本文针对数据集类分布非均衡和不相等误分类代价往往同时发生这一事实,提出了一种以最小误分类代价为目标的基于混合重取样的代价敏感学习算法。该算法将两种不同类型解决方案有机地融合在一起,先用样本类空间重构的方法使原始数据集的两类数据达到基本均衡,然后再引入代价敏感学习算法进行分类,能提高少数类分类精度,同时有效降低总的误分类代价。实验结果验证了该算法在处理非均衡类问题时比传统算法要优越。
-
关键词
分类
非均衡数据集
混合重取样
代价敏感学习
-
Keywords
classification
imbalanced dataset
hybrid re-sampling
cost sensitive learning
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于非均衡数据集的代价敏感学习算法比较研究
被引量:30
- 4
-
-
作者
谷琼
袁磊
熊启军
宁彬
李文新
-
机构
襄樊学院数学与计算机科学学院
-
出处
《微电子学与计算机》
CSCD
北大核心
2011年第8期146-149,153,共5页
-
基金
国家自然科学基金项目(61075063)
国家高技术研究发展计划("八六三"计划)项目(2009AA12Z117)
+1 种基金
湖北省自然科学基金项目(2010CDB05201)
湖北省教育厅中青年项目(Q20112604)
-
文摘
大多数非均衡数据集的研究集中于重构数据集或者代价敏感学习,针对数据集类分布非均衡和不相等误分类代价往往同时发生这一事实,在简要回顾代价敏感学习理论和现有学习算法的基础上,将所提出的自适应混合重取样算法,与基于最小误分类代价的MetaCost算法分别进行实验比较,实验表明所提出算法在代价敏感学习中具有一定的优势,实验结果显示非均衡类对代价敏感学习算法性能产生较大影响,当样本类别差异较大时,用样本类空间重构的方法可以得到较好的分类效果.
-
关键词
分类
非均衡数据集
混合重取样
代价敏感学习
-
Keywords
classification
imbalanced dataset
Hybrid Re-sampling
Cost Sensitive Learning
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-