期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
大数据平台上的并行CART决策树算法 被引量:2
1
作者 杜小芳 陈毅红 +1 位作者 王登辉 卢思阳 《西华师范大学学报(自然科学版)》 2021年第2期196-201,共6页
决策树是机器学习中最流行、应用最广泛的分类模型之一。针对Spark-MLlib决策树算法(MLDT)训练树模型效率较低的问题,提出了一种基于Spark平台的并行CART决策树算法(SPC-DT)。首先从数据并行优化的角度出发,采用数据垂直划分,该方法使... 决策树是机器学习中最流行、应用最广泛的分类模型之一。针对Spark-MLlib决策树算法(MLDT)训练树模型效率较低的问题,提出了一种基于Spark平台的并行CART决策树算法(SPC-DT)。首先从数据并行优化的角度出发,采用数据垂直划分,该方法使每次参与基尼值计算的都是一个完整的属性列,以减少数据节点之间信息交流造成的网络资源占用;其次采用Fayyad算法对连续属性进行离散化,以降低决策树训练过程中基尼值的计算频次;最后使用基尼指数来训练决策树模型以降低计算复杂度。实验结果表明,在分类精度方面,SPC-DT和MLDT差距不大,在树的训练效率上优于MLDT算法。 展开更多
关键词 决策树 Apache Spark fayyad算法 数据并行 连续属性
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部