-
题名数据流上挖掘决策树的关键技术研究
被引量:2
- 1
-
-
作者
黄树成
刘丽
-
机构
常州工学院计算机信息工程学院
连云港职业技术学院计算机信息工程学院
-
出处
《常州工学院学报》
2005年第5期19-25,共7页
-
文摘
分类是一个重要的数据挖掘问题,在数据流上挖掘决策树分类器的关键技术是如何计算最佳分裂标准,现有的算法有的不能很好地处理数值型的属性,有的计算代价太高。本文首先采用数据结构CML(C lassMatrix List)收集计算最佳分裂标准仅需的信息;其次,将数值型的属性值分成适当的区间,根据它们gini index值的特殊性质,只需确定具有最大gini index梯度的区间,因而可以快速地计算最佳分裂点,实现在流数据上快速建立决策树。
-
关键词
决策树
流数据
gini
index
梯度
最佳分裂标准
-
Keywords
decision tree
streaming data
gini index gradient
best splitting criterion
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名一个在数据流上快速建立决策树的算法
被引量:2
- 2
-
-
作者
刘丽
-
机构
连云港职业技术学院
-
出处
《连云港职业技术学院学报》
2005年第2期61-64,共4页
-
文摘
决策树分类器是一个重要的数据挖掘问题,在数据流上建立决策树的关键问题是如何计算内部节点的最佳分裂标准。现有的算法有的不能处理数值型的属性,有的计算代价太高。本文采用将数值型的属性值分成适当的区间,根据它们giniindex值的特殊性质,确定具有最大giniindex梯度的区间,因而可以快速地计算最佳分裂点,实现在流数据上快速地建立决策树。
-
关键词
决策树
流数据
gini
Indes梯度
最佳分裂标准
-
Keywords
decision tree
streaming data
gini index
gradient
the best splitting criterion
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-