基于Spark的CVFDT分类算法并行化研究被引量：3

Research on Parallelization of Concept-adapting Very Fast Decision Tree Classification Algorithm Based on Spark

下载PDF

导出

摘要以提升流数据的分类挖掘效率为目标,研究将概念适应快速决策树算法(CVFDT)部署到流数据计算平台Spark上进行并行化的方案。设计了CVFDT基于Spark的并行化实现方案,首先对CVFDT算法进行属性间并行化改造,即分割点计算过程中的并行化;然后基于Spark在CVFDT的建树过程中将节点的所有属性列表转化为Spark特有的弹性分布式数据集RDD,通过计算由每个RDD生成的并行化任务,汇总并且比较每个最佳分割点,再计算Hoeffding边界作为节点分裂条件找到最佳分割点,从而递归创建决策树。实验结果表明,在Spark集群环境下,CVFDT算法的分类效率相对于单机环境有显著提高,改进后的并行化CVFDT算法对大规模流数据处理有良好的适应能力,而且合理设定RDD过滤可使分类效率进一步提高。 Aiming at increase of classification and mining efficiency for stream data,we study a parallelization scheme of deploying the CVFDT（ concept-adapting fast decision tree） to the stream data computing platform Spark and design a implementation scheme of CVFDT based on Spark.Firstly,the CVFDT should be parallelized among attributes,that is the parallelization of the splitting point calculation.Then in the process of building decision trees of CVFDT based on Spark,all the attribute lists of the node are transformed into Spark＇s unique resilient distributed datasets（ RDD）,and through calculation of parallel task from each RDD,each optimal splitting point is summarized and compared.The Hoeffding boundary is calculated as the node splitting condition to find the optimal splitting point,and the decision tree is recursively created.The experiment shows that the classification efficiency of CVFDT in the Spark cluster environment relative to the stand-alone environment has improved significantly. The improved parallel CVFDT has better adaptability to large-scale stream data processing and the reasonable setting of RDD filtering can further improve the classification efficiency.

作者庄荣李玲娟 ZHUANG Rong;LI Ling-juan(School of Computer,Nanjing University of Posts and Telecommunications,Nanjing 210023,China)

机构地区南京邮电大学计算机学院

出处《计算机技术与发展》 2018年第6期35-38,共4页 Computer Technology and Development

基金国家自然科学基金(61302158 61571238)

关键词数据流 CVFDT 并行化 SPARK 弹性分布式数据集 data streams CVFDT parallelization Spark resilient distributed datasets

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1王涛,李舟军,颜跃进.一种基于哈希链表的高效概念漂移连续属性处理算法[J].计算机工程与科学,2008,30(8):65-68. 被引量：1
2袁磊,张阳,李梅,李雪,王勇.在数据流管理系统中实现快速决策树算法(英文)[J].计算机科学与探索,2010,4(8):673-682. 被引量：3
3黎文阳.大数据处理模型Apache Spark研究[J].现代计算机（中旬刊）,2015(3):55-60. 被引量：34
4沈超,邓彩凤.论Storm分布式实时计算工具[J].中国科技纵横,2014(3):53-53. 被引量：3
5张发扬,李玲娟,陈煜.VFDT算法基于Storm平台的实现方案[J].计算机技术与发展,2016,26(9):192-196. 被引量：3
6刘志强,顾荣,袁春风,黄宜华.基于SparkR的分类算法并行化研究[J].计算机科学与探索,2015,9(11):1281-1294. 被引量：14

二级参考文献82

1蒋良孝,蔡之华,刘钊.一种基于信息增益的分类规则挖掘算法[J].中南大学学报（自然科学版）,2003,34(z1):69-71. 被引量：8
2刘华元,袁琴琴,王保保.并行数据挖掘算法综述[J].电子科技,2006,19(1):65-68. 被引量：15
3王涛,李舟军,胡小华,颜跃进,陈火旺.一种高效的数据流挖掘增量模糊决策树分类算法[J].计算机学报,2007,30(8):1244-1250. 被引量：18
4Ordonez C.Integrating K-means clustering with a relational DBMS using SQL[J].IEEE Transactions on Knowledge and Data Mining Engineering,2006,18(2):188-201.
5Ordonez C,Pitchaimalai S K.Bayesian classifiers programmed in SQL[J].IEEE Transactions on Knowledge and Data Engineering,2010,22(1):139-144.
6Lu Hongan,Liu Hongyan.Decision tables:Scalable classification exploring RDBMS capabilities[C] //Proceedings of the 15th International Conference on Data Engineering,1999.
7Scarier K,Dunemann O.SQL database primitives for decision tree classifiers[C] //Proceedings of ACM Conference on Information and Knowledge Management,2003:1113-1116.
8Milenova B,Yarmus J S,Campos M M.SVM in oracle database 10g:Removing the barriers to widespread adoption of support vector machines[C] //Proceedings of the 31st International Conference on Very large Data Bases,2005:1152-1163.
9Lu Hongjun,Liu Hongyan.Decision tables:Scalable classification exploring RDBMS capabilities[C] //Proceedings of the 26th International Conference on Very Large Data Bases,2000.
10Hulten G,Domingos P.Mining high-speed data streams[C] //Proceedings of the 6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2000:71-80.

共引文献52

1张晶,张阳.在数据流数据库中集成聚类算法研究与实现[J].计算机应用研究,2014,31(5):1456-1458. 被引量：1
2郭红涛.Deep Web数据库的语义高斯边缘化索引路径优选[J].科技通报,2015,31(6):73-75.
3李坤,刘鹏,吕雅洁,张国鹏,黄宜华.基于Spark的LIBSVM参数优选并行化算法[J].南京大学学报（自然科学版）,2016,52(2):343-352. 被引量：21
4张亮,杨春丽,马媛媛.大数据应用部署研究[J].电信网技术,2016,0(5):30-36. 被引量：2
5吕益民,吴旻中,苏伟杰.基于Spark大数据平台在视频中搜索特征车辆的研究[J].警察技术,2016(4):80-82. 被引量：1
6孙良君,袁庆祝,陆佃龙.分布式实时抽取计算框架设计与应用[J].信息技术,2016,40(8):185-187.
7何美斌,胡精英.基于SparkR的大数据分析平台设计[J].电子技术与软件工程,2016(21):184-184. 被引量：2
8李帅,吴斌,杜修明,陈玉峰.基于Spark的BIRCH算法并行化的设计与实现[J].计算机工程与科学,2017,39(1):35-41. 被引量：10
9何雅琴,李涛.网络访问日志实时分析系统在Storm平台上的实现[J].信息化研究,2016,42(4):23-27.
10盛剑,樊红,龚天任,程幸福.K-Means算法及其在卷烟零售门店库存聚类分析中的应用[J].商业经济,2017(3):128-129. 被引量：4

同被引文献22

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
2富春岩,葛茂松.一种能够适应概念漂移变化的数据流分类方法[J].智能系统学报,2007,2(4):86-91. 被引量：5
3张利芝,唐俊同,陈展.CTCS2-200C型车载列车控制系统[J].机车电传动,2008(1):11-14. 被引量：5
4黄树成,曲亚辉.数据流分类技术研究综述[J].计算机应用研究,2009,26(10):3604-3609. 被引量：18
5尹为,张成虎,杨彬.基于流数据频繁项挖掘的可疑金融交易识别研究[J].西安交通大学学报（社会科学版）,2011,31(5):86-90. 被引量：8
6马麟,张友兵,刘岭,崔俊锋,张国振.CTCS-3级300T车载数据实时采集系统的解决方案[J].铁路通信信号工程技术,2013,10(6):1-3. 被引量：1
7罗赟骞,陈志杰,汤锦辉,朱永文.采用支持向量机回归的航班延误预测研究[J].交通运输系统工程与信息,2015,15(1):143-149. 被引量：39
8胡功宏,林雨,高建平.高速公路交通流实时安全性评价[J].安全与环境学报,2015,15(1):57-63. 被引量：6
9徐海文,韩松臣,刘晓东.基于旅客角度的航班延误影响因素分析[J].中国市场,2015(52):221-224. 被引量：3
10王春凯,孟小峰.分布式数据流关系查询技术研究[J].计算机学报,2016,39(1):80-96. 被引量：21

引证文献3

1盛俊.面向大数据的挖掘分类算法研究[J].信息技术与信息化,2019,0(12):123-125.
2袁焦,王珣,潘兆马,杨学锋,邹文露.基于机器学习的列车设备故障预测模型研究[J].计算机与现代化,2020(12):49-54. 被引量：4
3谌婧娇.基于Spark的决策树算法对航班延误预测研究[J].电脑知识与技术,2021,17(4):217-219. 被引量：3

二级引证文献7

1曾庆好,马亮,马博文.基于计算机视觉的医用口罩在线检测系统设计[J].现代信息科技,2021,5(5):174-180.
2刘江,许康智,蔡伯根,郭忠斌,王剑.基于XGBoost的列控车载设备故障预测方法[J].北京交通大学学报,2021,45(4):95-106. 被引量：10
3徐海文,史家财,汪腾.基于深度全连接神经网络的离港航班延误预测模型[J].计算机应用,2022,42(10):3283-3291. 被引量：3
4郑玉帆,徐海文.基于SMOTE算法的深度神经网络航班延误预测模型[J].价值工程,2023,42(4):118-120.
5张雪梅,孔祥吉.实验室力值类设备故障预测及算法比较[J].计量科学与技术,2023,67(8):54-60. 被引量：1
6邹一方.基于机器学习的CT设备故障自动化识别系统[J].自动化技术与应用,2024,43(1):134-138.
7陈春茹.基于Spark SQL的数据查询与索引优化系统研究[J].信息技术与信息化,2024(7):170-173.

1刘月峰,张亚斌,苑江浩.云环境下NB算法的垃圾邮件过滤研究[J].微电子学与计算机,2018,35(8):60-63. 被引量：4
2吕啟文.基于云计算的流数据集成云服务[J].数字技术与应用,2017,35(10):57-57.
3宋关福,钟耳顺,李绍俊,蔡文文,王少华.大数据时代的GIS软件技术发展[J].测绘地理信息,2018,43(1):1-7. 被引量：17
4张国芳,罗雅迪,李静,戴旭,代宇涵.大电网潮流修正方程并行求解实现方法[J].电力系统保护与控制,2017,45(19):117-122. 被引量：5
5王晓磊.基于最佳分割目标优化的医学图像分割方法[J].信息技术,2017,41(10):93-98. 被引量：1
6骆剑彬,姜绍飞,任晖,赵剑.Spark云计算平台下的结构物理参数辨识[J].振动与冲击,2018,37(14):67-73. 被引量：2
7姜学军,武枫,黄海新.Spark大数据计算平台[J].电子世界,2018,0(15):82-82. 被引量：3
8彭晓平,段琳,程旭明,胡勇.基于电力大数据的实时流数据处理技术研究[J].中国战略新兴产业,2017(7X):82-83.
9郭金信.动车运用所内掉码问题分析和处理[J].铁道通信信号,2018,54(7):17-20. 被引量：1
10朱丽萍,王建东,李洪奇,赵艳红.Spark框架下地震属性处理方法研究[J].计算机与数字工程,2018,46(8):1620-1626. 被引量：4

计算机技术与发展

2018年第6期

浏览历史

内容加载中请稍等...

基于Spark的CVFDT分类算法并行化研究被引量：3

参考文献6

二级参考文献82

共引文献52

同被引文献22

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于Spark的CVFDT分类算法并行化研究 被引量：3

参考文献6

二级参考文献82

共引文献52

同被引文献22

引证文献3

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于Spark的CVFDT分类算法并行化研究被引量：3