-
题名决策树C4.5算法属性取值优化研究
被引量:2
- 1
-
-
作者
黄世反
沈勇
王瑞芳
马华丽
陈长赓
张宇昊
-
机构
云南大学软件学院
-
出处
《计算机科学与应用》
2015年第5期171-178,共8页
-
基金
南省软件工程重点实验室面上基金项目(2012SE306,2011SE12)。
-
文摘
在决策树算法中,属性取值种类的多少决定着决策树分支数量的多少。基于此,提出了一种新的属性取值优化的方法,实例证明该方法确实能优化生成决策树的分支数量,达到精简生成决策树结构的目的,且该方法对原C4.5算法的分类正确率没有影响。
-
关键词
决策树
C4.5算法
属性取值
优化
-
分类号
TP31
[自动化与计算机技术—计算机软件与理论]
-
-
题名保持分类能力不变的一种连续属性离散化方法
被引量:2
- 2
-
-
作者
巩建闽
王国胜
萧蓓蕾
-
机构
德州学院计算机系
-
出处
《曲阜师范大学学报(自然科学版)》
CAS
2005年第1期95-99,共5页
-
基金
德州学院科研计划资助 (0 2 0 18)
-
文摘
连续型属性的离散化问题是机器学习中的关键问题 ,是一个NP难题 .该文针对决策表 ,在NaiveScaler算法的基础上 ,给出了一种直观、有效和易于理解的离散化方法 .该方法从整个属性空间的角度来考虑属性的离散化问题 ,可有效地保证决策表中原有分类结果的不变性 .
-
关键词
分类
决策表
连续取值属性
离散化
-
Keywords
classification
decision tables
continuous type of attributes
discretization
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名决策树分类算法研究
被引量:53
- 3
-
-
作者
张琳
陈燕
李桃迎
牟向伟
-
机构
大连海事大学交通运输管理学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第13期66-67,70,共3页
-
基金
国家自然科学基金资助项目(70940008)
高等学校博士学科点专项科研基金资助项目(200801510001)
-
文摘
ID3算法在选择分裂属性时偏向于选取属性取值较多的属性。针对该问题,引入属性重要性和属性取值数量2个参数对ID3算法的信息增益公式进行改进,从而提高取值数量少但较为关键的属性的重要性,使算法更好地反映实际决策情况,并根据凸函数的性质简化信息熵的计算,提高决策树的构造效率。通过实例介绍改进算法的具体应用方法,证明其性能相比原算法有所提高。
-
关键词
ID3算法
信息增益
属性重要性
属性取值数量
信息熵
-
Keywords
ID3 algorithm
information gain
attribute importance
number of attribute values
information entropy
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-