-
题名一种基于混合策略的失衡数据集分类方法
被引量:16
- 1
-
-
作者
李鹏
王晓龙
刘远超
王宝勋
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2007年第11期2161-2165,共5页
-
基金
国家自然科学基金重点项目(No.60435020)
国家863高技术研究发展计划重点项目(No.2006AA01Z197)
-
文摘
提出了一种有效应用于失衡数据集的分类方法,其核心思想是从样本预处理和分类器改进两方面入手,为失衡数据集的分类问题提供全面的解决方案.首先创造性地采用动态自组织映射聚类的方法对失衡数据集进行重采样,这种采样方法,有效地解决了传统重采样的方法随机性强,人为主观干扰以及信息损失等弊端.随后借助K-近邻规则的思想,对新采集的样本进行剪枝,有效地解决了实际存在的数据混叠现象.算法对SVM的核函数进行等角变换,由此对类边界进行了校准,以适应样本类别失衡的情况.通过对三种算法的对比实验证明了算法在失衡数据集分类上的有效性.本文的算法已经在答案抽取技术中得到了成功应用,并在TREC2006国际QA评测中得到了客观充分的验证.
-
关键词
失衡数据集
分类
支持向量机
动态自组织映射
K-近邻
-
Keywords
imbalanced data sets(IDS)
classification
support vector machine(SVM)
variable self-organizing maps(VSOM)
K-nearest neighbor(K-NN)
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-
-
题名基于改进决策树算法的失衡数据集分类方法
被引量:2
- 2
-
-
作者
潘燕
-
机构
福建农业职业技术学院
-
出处
《长春工程学院学报(自然科学版)》
2019年第4期95-98,102,共5页
-
文摘
为了提高云资源空间数据的检索能力,需要对云资源分布空间的失衡数据进行优化分类处理,提出基于改进决策树算法的失衡数据集分类算法,构建失衡数据分布的不规则空间聚类模型,采用特征空间重组方法进行失衡数据的模糊特征重构和聚类处理,提取失衡数据的关联特征分布集和属性集,根据失衡数据的属性分布进行大数据挖掘和自适应特征提取,采用改进决策树算法对提取的失衡数据特征集进行不规则三角网重构和模糊聚类处理,实现失衡数据的优化分类。仿真结果表明,采用该方法进行失衡数据分类的自动分类性能较好,失误率较低,提高了失衡数据的分类检测和识别能力。
-
关键词
改进决策树算法
失衡数据集
分类
关联特征
-
Keywords
improved decision tree algorithm
imbalance data set
classification
association feature
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-