基于Map/Reduce的决策树分类挖掘方法应用研究被引量：4

Application of Decision Tree Classification Method Based on Map/Reduce

下载PDF

导出

摘要传统数据挖掘模式在处理海量、多维、复杂等特征的数据时,存在计算能力弱、效率低、可扩展性差等问题。论文提出基于Map/Reduce的决策树分类挖掘方法(C4.5BH算法),该算法采用K-means聚类方法对连续属性进行离散化,并利用Map/Reduce编程模型和属性表结构实现了决策树构造过程中属性的并行计算和节点的并行分裂。实验证明,与传统的C4.5算法相比,C4.5BH算法在处理大规模数据集时具有更高的执行效率和良好的加速比。 The traditional data mining model is weak in computing power, low efficiency and poor scalability when dealng with the data of massive, multi-dimensional and complex characteristics. This paper proposes a mining method （C4. 5BH lgorithm） based on Map/Reduce the decision tree classification, which uses the Kmeans clustering method to discretize the ontinuous attributes and the Map/Reduce programming model and attribute table structure to achieve the parallel computaion of the attributes and the parallel splitting of nodes in the process of constructing decision tree. Experiments show that 4. 5BH algorithm has a higher efficiency and a better speedup when dealing with large data sets, compared with the tradiional C4. 5 algorithm.

作者李根樊龙万定生余宇峰

机构地区河海大学计算机与信息学院支付宝(中国)网络技术有限公司

出处《计算机与数字工程》 2016年第8期1504-1510,共7页 Computer & Digital Engineering

基金国家科技支撑计划课题(编号:2015BAB07B01) 水利部公益性行业科研专项(编号:201501022)资助

关键词 Map/Reduce技术 K-MEANS算法决策树 C4.5BH算法 technology of Map/Reduce, K-means algorithm, decision tree, C4. 5BH algorithm

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1陈梦杰,陈勇旭,贾益斌,张一川,宋杰.基于Hadoop的大数据查询系统简述[J].计算机与数字工程,2013,41(12):1939-1942. 被引量：5
2刘明亮,李雄飞,孙涛,许晓晴.数据挖掘技术标准综述[J].计算机科学,2008,35(6):5-10. 被引量：23
3樊龙,万定生,顾昕辰.基于Hadoop云平台的水利普查数据挖掘系统的设计和实现[J].计算机与数字工程,2014,42(5):831-834. 被引量：9
4李建江,崔健,王聃,严林,黄义双.MapReduce并行编程模型研究综述[J].电子学报,2011,39(11):2635-2642. 被引量：187
5李如平.数据挖掘中决策树分类算法的研究[J].东华理工大学学报（自然科学版）,2010,33(2):192-196. 被引量：28
6谭俊璐,武建华.基于决策树规则的分类算法研究[J].计算机工程与设计,2010,31(5):1017-1019. 被引量：25
7李楠,段隆振,陈萌.决策树C4.5算法在数据挖掘中的分析及其应用[J].计算机与现代化,2008(12):160-163. 被引量：43
8孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1079
9周锐,胡学钢.基于聚类的决策树连续属性离散化改进算法[J].微计算机信息,2011,27(6):183-184. 被引量：1

二级参考文献97

1潘无名,潘云鹤.数据挖掘过程的多维视图[J].计算机应用研究,2004,21(8):211-213. 被引量：4
2姚家奕,姜海,王秦.决策树算法的系统实现与修剪优化[J].计算机工程与设计,2002,23(8):75-77. 被引量：11
3AndrewA.Chien,Xian-HeSun,Zhi-WeiXu.Viewpoints on Grid Standards[J].Journal of Computer Science & Technology,2005,20(1):141-143. 被引量：2
4苏卫.数据挖掘工具的应用与标准化[J].计算机工程,2004,30(B12):40-42. 被引量：7
5桂现才,彭宏,王小华.C4.5算法在保险客户流失分析中的应用[J].计算机工程与应用,2005,41(17):197-199. 被引量：33
6李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
7吴楠,宋方敏.用C4.5算法对局域网数据报进行行为分类[J].计算机技术与发展,2006,16(7):1-3. 被引量：3
8张德政,李天驰,阿孜古丽.决策树C4.5算法在天然气输差分析中的应用[J].计算机工程与应用,2006,42(23):208-210. 被引量：8
9杨学兵,张俊.决策树算法及其核心技术[J].计算机技术与发展,2007,17(1):43-45. 被引量：88
10贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：228

共引文献1389

1马楚然,赵乐,刘广瑞,何薇,孙钦峰,孙圣军.基于数据挖掘的口腔医学专业培养方案设置的研究[J].中国高等医学教育,2023(6):23-24.
2丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
3王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85. 被引量：1
4林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
5高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
6毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
7张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：4
8李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
9尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
10段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1

同被引文献25

1何明,周雯娟,黄小龙,魏为.决策树算法在人才招聘简历筛选中的应用[J].企业改革与管理,2020(17):83-84. 被引量：3
2孙微微,刘才兴,田绪红.训练集容量对决策树分类错误率的影响研究[J].计算机工程与应用,2005,41(10):159-161. 被引量：6
3刘永增,张晓景,李先毅.基于Hadoop/Hive的web日志分析系统的设计[J].广西大学学报（自然科学版）,2011,36(A01):314-317. 被引量：24
4张红蕊,张永,于静雯.云计算环境下基于朴素贝叶斯的数据分类[J].计算机应用与软件,2015,32(3):27-30. 被引量：19
5张继福,李永红,秦啸,荀亚玲.基于MapReduce与相关子空间的局部离群数据挖掘算法[J].软件学报,2015,26(5):1079-1095. 被引量：41
6王慧,张翠羽.基于改进遗传算法的网络差异数据挖掘算法[J].计算机仿真,2015,32(5):311-314. 被引量：17
7聂军.基于K-L特征压缩的云计算冗余数据降维算法[J].微电子学与计算机,2016,33(2):125-129. 被引量：8
8蒋本立,张小平.大数据网络的均衡调度平台设计与改进[J].现代电子技术,2016,39(6):62-65. 被引量：31
9梁聪刚,王鸿章.微分进化算法的优化研究及其在聚类分析中的应用[J].现代电子技术,2016,39(13):103-107. 被引量：23
10张晶星,李石君.基于Hadoop的改进决策树剪枝算法[J].计算机工程与设计,2016,37(7):1942-1946. 被引量：4

引证文献4

1黄成兵.一种多层次分布式数据挖掘方法的改进研究[J].现代电子技术,2017,40(9):70-72. 被引量：2
2廖绍雯,贾聪.基于Map-Reduce框架的C4.5分布式改进算法[J].自动化与仪器仪表,2020(8):17-21. 被引量：2
3杨新月,郭抒菡.大数据环境下基于决策树算法的人才招聘系统优化研究[J].数字技术与应用,2021,39(4):101-103. 被引量：2
4李少君,刘晓东.基于大数据平台的海上杂散目标识别模型[J].电子设计工程,2022,30(21):15-19.

二级引证文献6

1谈笑.基于Spark大数据平台的老年病风险预警模型[J].微型电脑应用,2020,36(2):71-74. 被引量：2
2徐良.大型差异数据库中高伪装入侵数据挖掘方法[J].电子设计工程,2020,28(5):112-115. 被引量：2
3肖铮.常用的三种分类算法及其比较分析[J].重庆科技学院学报（自然科学版）,2020,22(5):101-106. 被引量：8
4赵蕾.基于数据挖掘技术的体育训练模式研究[J].内蒙古师范大学学报（自然科学版）,2022,51(2):202-206. 被引量：2
5张艳丽,吴淮北.Hive数据仓库在Hadoop大数据环境下数据的导入与应用[J].电脑编程技巧与维护,2022(12):97-99. 被引量：4
6李杰,孙鹤林,雷一鸣,田晓雷,蔡正梓.基于优化决策树算法的变电站故障诊断系统研究[J].自动化技术与应用,2023,42(6):112-115. 被引量：3

1刘臣.非关系数据库CouchDB的应用[J].电脑知识与技术（过刊）,2013,19(5X):3220-3222. 被引量：2
2戎翔,李玲娟.基于MapReduce的频繁项集挖掘方法[J].西安邮电学院学报,2011,16(4):37-39. 被引量：24
3林清滢.基于Hadoop的云计算模型[J].现代计算机,2010,16(7):114-116. 被引量：27
4施蕾,唐艳琴,张欣星.数据挖掘中决策树方法的研究[J].计算机与现代化,2009(10):29-32. 被引量：13
5刘锋.互联网的分裂和统一[J].互联网周刊,2008(6):76-76.
6李锋,卢佩,刘成臣.基于单片机与CPLD的高速数据采集系统[J].自动化与仪表,2003,18(3):57-58. 被引量：2
7陈静,黎旭.系统集成中ODBC技术的应用[J].云南民族学院学报（自然科学版）,1999,8(3):83-86.
8方少卿,周剑,张明新.基于Map／Reduce的改进选择算法在云计算的Web数据挖掘中的研究[J].计算机应用研究,2013,30(2):377-379. 被引量：13
9潘东静.基于关联规则的数据挖掘研究[J].枣庄师专学报,2001,18(5):15-17.
10谢智勇.基于云计算的分布式搜索引擎研究[J].机电信息,2016(30):109-109.

计算机与数字工程

2016年第8期

浏览历史

内容加载中请稍等...

基于Map/Reduce的决策树分类挖掘方法应用研究被引量：4

参考文献9

二级参考文献97

共引文献1389

同被引文献25

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于Map/Reduce的决策树分类挖掘方法应用研究 被引量：4

参考文献9

二级参考文献97

共引文献1389

同被引文献25

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于Map/Reduce的决策树分类挖掘方法应用研究被引量：4