大数据环境下决策树算法并行化研究被引量：2

Research on parallelization of decision tree algorithm under big data environment

下载PDF

导出

摘要决策树算法是数据挖掘中重要的分类算法,但目前多数针对决策树的改进方法都基于传统的串行算法,不能满足大数据环境下对海量数据挖掘的需要.针对大数据集中串行挖掘算法效率低下的问题,采用MapReduce对决策树算法进行了并行化实现,同时引入修正参数来改进ID3算法倾向于多值属性选取的问题.实验结果表明,该算法具有较好的并行性和扩展性,能有效处理大数据集的分类问题. Decision tree is an important classification algorithm in data mining, but most of the improvement methods for decision tree are based on the traditional serial algorithm, which can＇t meet the need of massive data mining under big data environment. For the inefficiency of serial mining algorithm in massive data, MapReduce is used to parallelize the decision tree algorithm. At the same time, the modified parameters are introduced to avoid the ID3 algorithm tending to multi-valued attribute selection problem. The experi-mental results show that the proposed algorithm has good parallelism and scalability, and can effectively deal with massive data classifi-cation problem.

作者李运娣

机构地区河南工程学院计算机学院

出处《河南工程学院学报（自然科学版）》 2017年第2期57-61,共5页 Journal of Henan University of Engineering：Natural Science Edition

基金河南省高等学校重点科研项目(16A520004)

关键词决策树 MAPREDUCE 大数据并行化 decision tree MapReduce big data parallelization

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1黄爱辉,陈湘涛.决策树ID3算法的改进[J].计算机工程与科学,2009,31(6):109-111. 被引量：33
2冯少荣,肖文俊.基于样本选取的决策树改进算法[J].西南交通大学学报,2009,44(5):643-647. 被引量：18
3黄宇达,范太华.决策树ID3算法的分析与优化[J].计算机工程与设计,2012,33(8):3089-3093. 被引量：16
4任波,王乘.MPI集群通信性能分析[J].计算机工程,2004,30(11):71-73. 被引量：13
5宋杰,郭朝鹏,王智,张一川,于戈,Jean-Marc PIERSON.大数据分析的分布式MOLAP技术[J].软件学报,2014,25(4):731-752. 被引量：34
6覃雄派,王会举,杜小勇,王珊.大数据分析——RDBMS与MapReduce的竞争与共生[J].软件学报,2012,23(1):32-45. 被引量：386

二级参考文献115

1刘鹏,姚正,尹俊杰.一种有效的C4.5改进模型[J].清华大学学报（自然科学版）,2006,46(z1):996-1001. 被引量：28
2韩慧,毛锋,王文渊.数据挖掘中决策树算法的最新进展[J].计算机应用研究,2004,21(12):5-8. 被引量：47
3韩松来,张辉,周华平.基于关联度函数的决策树分类算法[J].计算机应用,2005,25(11):2655-2657. 被引量：36
4刘鹏.一种健壮有效的决策树改进模型[J].计算机工程与应用,2005,41(33):172-175. 被引量：5
5郭玉滨.一种基于离散度的决策树改进算法[J].山东师范大学学报（自然科学版）,2006,21(3):129-131. 被引量：3
6Quinlan J R. Induction of Decision Tree[J]. Machine Learning, 1986,1 ( 1 ) : 81-106.
7BREIMAN L, FRIEDMAN J H, OLSHEN R A, et al. Classification and regression trees [ M ]. Belmont: Wadsworth International , 1984.
8QUINLAN J R. Induction of decision tree[ J]. Machine Learning, 1986, 1(1) : 81-106.
9QUINLAN J R. Simplifying decision trees[ J ]. International Journal of Man-Machine Studies, 1987, 27: 221-234.
10AMIR B O, DANIEL K, ASSAF S, et al. Hierarchical decision tree induction in distributed genomic databases[J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17 ( 8 ) : 1138-1151.

共引文献492

1郑智泉,杨楠.智能革命下数据驱动的智慧图书馆建设分析[J].智能计算机与应用,2020(8):183-185.
2谢月锋,董现垒,陈卉,王燕,刘志成.利用网络痕迹信息即时预测儿童腹泻流行趋势[J].医学信息（医学与计算机应用）,2016,29(29):1-4.
3董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：70
4邓波,张玉超,金松昌,林旺群.基于MapReduce并行架构的大数据社会网络社团挖掘方法[J].计算机研究与发展,2013,50(S2):187-195. 被引量：10
5马宾.一种改进的并行K_近邻网络舆情分类算法研究[J].微电子学与计算机,2015,32(6):62-66. 被引量：1
6罗秋明,王梅,雷海军,张红兵.MPI全互换通信的性能优化[J].计算机工程与应用,2006,42(16):127-128. 被引量：2
7马晶燕,于双元.基于MPICH的MPI并行环境分析[J].科技资讯,2006,4(30):6-7. 被引量：4
8缪楠林,刘明波,赵维兴.电力系统动态无功优化并行算法及其实现[J].电工技术学报,2009,24(2):150-157. 被引量：39
9于晓鹏,董延华,兰丽辉,杨景海.基于微处理器的并行信息处理策略[J].吉林大学学报（理学版）,2009,47(3):563-565. 被引量：2
10林向阳.数据挖掘中的决策树算法比较研究[J].中国科技信息,2010(2):94-95. 被引量：5

同被引文献21

1史海成,王春艳,张媛媛.浅谈模式识别[J].今日科苑,2007(22):169-169. 被引量：12
2汤素丽,罗宇锋.人工神经网络技术的发展与应用[J].电脑开发与应用,2009,22(10):59-61. 被引量：34
3丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述[J].电子科技大学学报,2011,40(1):2-10. 被引量：913
4林加乡,葛元.浅谈BP神经网络在模式识别中的应用[J].电脑知识与技术,2011,7(3):1543-1545. 被引量：5
5王千,王成,冯振元,叶金凤.K-means聚类算法研究综述[J].电子设计工程,2012,20(7):21-24. 被引量：306
6胡伟.改进的层次K均值聚类算法[J].计算机工程与应用,2013,49(2):157-159. 被引量：63
7甄盼好.浅谈机器学习方法[J].网络安全技术与应用,2014(1):176-177. 被引量：7
8黄宜华.大数据机器学习系统研究进展[J].大数据,2015,1(1):28-47. 被引量：51
9杨梦铎,李凡长,张莉.李群机器学习十年研究进展[J].计算机学报,2015,38(7):1337-1356. 被引量：7
10何芝兰.无线通信在智能家居中的应用分析[J].科技创新与应用,2015,5(30):49-49. 被引量：1

引证文献2

1张磊,陈东,王建新,高献伟,段晓毅.机器学习算法与应用[J].北京电子科技学院学报,2017,25(4):51-56. 被引量：3
2李克宇,杜谦,曾祥正,周泓余,徐海森.智能家居环境下基于决策树的用户行为分析[J].科技创新与应用,2018,8(15):15-16. 被引量：1

二级引证文献4

1王军,孙泽军.基于用户行为分析的物联网智能家居监测控制系统的设计与实现[J].物联网技术,2020,10(9):71-74. 被引量：12
2李良,薛媛,高源,苏建华,蔡少锋.基于机器学习的勘探开发数据质控方法研究[J].信息系统工程,2021,34(4):146-147. 被引量：1
3李良,薛媛,高源,苏建华,蔡少锋.基于机器学习的勘探开发数据质控方法研究[J].石油工业计算机应用,2022,30(1):31-34.
4周欣然,胡欣文,刘劲.基于随机森林的X射线脉冲星时延估计[J].科技经济导刊,2019(27):3-5.

1司福明,卜天然.一种基于Hadoop云计算平台大数据聚类算法设计[J].楚雄师范学院学报,2016,31(3):49-55. 被引量：6
2张俊华.异步电机的参数辨识与矢量控制[J].杭州电子科技大学学报（自然科学版）,2011,31(4):132-135. 被引量：3
3乔向杰,陈功平.数据挖掘中分类算法的可扩展性研究[J].信阳师范学院学报（自然科学版）,2006,19(2):239-242. 被引量：6
4车芳,韩俊刚,郭志全.SMT-PAAG下的Harris角点检测与匹配算法[J].电子技术应用,2017,43(4):138-140. 被引量：3
5刘丰年.基于ARM9和Zigbee的温室大棚远程智能监测预警系统[J].河南工程学院学报（自然科学版）,2017,29(2):67-71.
6王进,王鸿,夏翠萍,欧阳卫华,陈乔松,邓欣.基于Spark的组合分类器链多标签分类方法[J].中国科学技术大学学报,2017,47(4):350-357. 被引量：2
7李敏波,王海鹏,陈松奎,廖倡.工业大数据分析技术与轮胎销售数据预测[J].计算机工程与应用,2017,53(11):100-109. 被引量：20
8张元鸣,陈苗,陆佳炜,徐俊,肖刚.基于MapReduce的Bagging决策树优化算法[J].计算机工程与科学,2017,39(5):841-848. 被引量：8

河南工程学院学报（自然科学版）

2017年第2期

浏览历史

内容加载中请稍等...

大数据环境下决策树算法并行化研究被引量：2

参考文献6

二级参考文献115

共引文献492

同被引文献21

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

大数据环境下决策树算法并行化研究 被引量：2

参考文献6

二级参考文献115

共引文献492

同被引文献21

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

大数据环境下决策树算法并行化研究被引量：2