-
题名一种新的不平衡数据学习算法PCBoost
被引量:63
- 1
-
-
作者
李雄飞
李军
董元方
屈成伟
-
机构
吉林大学符号计算与知识工程教育部重点实验室
长春理工大学应用数学系
长春理工大学经济管理学院
-
出处
《计算机学报》
EI
CSCD
北大核心
2012年第2期202-209,共8页
-
基金
国家科技支撑计划项目(2006BAK01A33)
吉林省科技发展计划项目(20070321
20090704)资助~~
-
文摘
现实世界中广泛存在不平衡数据,其分类问题是机器学习研究中的一个热点.多数传统分类算法假定类分布平衡或误分类代价均衡,在处理不平衡数据时,效果不够理想.文中提出一种不平衡数据分类算法-PCBoost.算法以信息增益率为分裂准则构建决策树,作为弱分类器.在每次迭代初始,利用数据合成方法添加合成的少数类样例,平衡训练信息;在子分类器形成后,修正"扰动",删除未被正确分类的合成样例.文中讨论了数据合成方法,给出了训练误差界的理论分析,并分析了集成学习参数的选择.实验结果表明,PCBoost算法具有处理不平衡数据分类问题的优势.
-
关键词
数据挖掘
不平衡数据
集成学习
提升
扰动
-
Keywords
data mining
imbalanced data
ensemble learning
boosting
perturbation
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名数据挖掘中平衡偏斜训练集的方法研究
被引量:3
- 2
-
-
作者
李雄飞
李军
屈成伟
刘丽娟
孙涛
-
机构
符号计算与知识工程教育部重点实验室(吉林大学)
长春理工大学应用数学系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2012年第2期346-353,共8页
-
基金
国家科技支撑计划基金项目(2006BAK01A33)
吉林省科技发展计划基金项目(20070321
20090704)
-
文摘
分类是数据挖掘的重要任务之一.训练分类器的训练集可能是偏斜数据.传统分类算法处理偏斜训练集,通常会使少数类别样例的分类精度很低.已有的偏斜训练集平衡算法都是针对只有两种目标类的情况.为平衡拥有多种目标类的偏斜训练集,基于同类样例差异较小的思想给出SSGP算法,在同类样例附近增加少数类别样例,且使多种少数类别样例同速增加.并证明SSGP算法不会向数据集中添加噪声样例.为提高效率,用样例取模取代大量相异度计算.实验表明,只需执行一遍SSGP算法就能同时提高多种少数类别样例的分类精度.
-
关键词
分类
偏斜训练集
平衡算法
少数类别样例
模
-
Keywords
classification
skewed training data
balancing algorithm
minority class case
modulus
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名一种新的决策表相对约简算法
- 3
-
-
作者
董元方
李雄飞
李军
屈成伟
-
机构
吉林大学符号计算与知识工程教育部重点实验室
长春理工大学经济管理学院
长春理工大学数学系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第17期38-39,43,共3页
-
基金
国家科技支撑计划基金资助项目(2006BAK01A33)
吉林省科技发展计划基金资助项目(20070321
20090704)
-
文摘
根据决策表定义条件属性区分能力指数DI(a)的概念,给出DI(a)的若干性质。定义拟等价类的概念,提出基于区分能力指数的决策表相对约简算法,该算法基于分治策略,用属性a代替相应区域的区分元素,从而减小算法搜索的空间。实验结果表明,该算法具有较高的搜索效率,能够得到全部或大部分约简。
-
关键词
数据挖掘
粗糙集
约简
区分矩阵
区分能力指数
-
Keywords
data mining
rough set
reduct
discernibility matrix
discernibility ability index
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-