基于SparkR的分类算法并行化研究被引量：14

Parallelization of Classification Algorithms Based on SparkR

下载PDF

导出

摘要近几年来,大数据机器学习和数据挖掘并行化算法研究成为大数据领域一个较为重要的研究热点。Spark提供了一个称为Spark R的编程接口,方便一般应用领域的数据分析人员使用所熟悉的R语言在Spark平台上完成数据分析和计算。基于Spark R设计并实现了多种常用的并行化的机器学习分类算法,包括多项式贝叶斯分类算法、支持向量机(support vector machine,SVM)算法和Logistic Regression算法。对于SVM和Logistic Regression算法,在常规的并行化策略的基础上为了进一步提升训练速度,设计采用了并行化局部优化的迭代计算模式。实验结果表明,所设计实现的基于Spark R的并行化分类算法与Hadoop Map Reduce的方案相比,速度上提升了8倍左右。 In recent years,parallelizing algorithms for big data machine learning and data mining have become an important research issue in the field of big data.Spark provides a programming interface called Spark R to support data analysts who are familiar with the R language in the general application areas to conduct the data analysis and computations on the Spark platform.This paper proposes the design and implementation of several widely-used parallel classification algorithms including Multinomial Naive Bayes,SVM（support vector machine） and Logistic Regression based on Spark R.This paper also presents how to optimize the SVM and Logistic Regression algorithms to improve the training speed based on conventional parallel strategies.The experimental results show that the efficiency of the classification algorithms based on Spark R outperforms Hadoop Map Reduce with 8 times of speedup without losing scalability.

作者刘志强顾荣袁春风黄宜华

机构地区南京大学计算机软件新技术国家重点实验室南京大学计算机科学与技术系江苏省软件新技术与产业化协同创新中心

出处《计算机科学与探索》 CSCD 北大核心 2015年第11期1281-1294,共14页 Journal of Frontiers of Computer Science and Technology

基金江苏省科技支撑计划项目No.BE2014131~~

关键词 SparkR 分类算法并行化局部迭代内存计算 Spark R classification algorithm parallelization local iteration in-memory computation

分类号 TP338 [自动化与计算机技术—计算机系统结构] TP182 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献19

1刘华元,袁琴琴,王保保.并行数据挖掘算法综述[J].电子科技,2006,19(1):65-68. 被引量：15
2Dean J,Ghemawat S.Map Reduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
3Zaharia M,Chowdhury M,Das T,et al.Resilient distributed datasets:a fault-tolerant abstraction for in-memory cluster computing[C]//Proceedings of the 9th USENIX Conference on Networked Systems Design and Implementation,San Jose,USA,Apr 25-27,2012.Berkeley,CA,USA:USENIX Association,2012.
4The R Foundation.The R project for statistical computing[EB/OL].[2014-10-06].http://www.r-project.org/.
5Amplab-extras.Spark R(R frontend for Spark)[EB/OL].[2014-09-25].http://amplab-extras.github.io/Spark R-pkg/.
6Liu Chuang.Research on classification algorithms based on multicore computing[D].Nanjing:Nanjing University of Aeronautics and Astronautics,2011.
7Jin Lei,Wang Zhaokang,Gu Rong,et al.Training large scale deep neural networks on the Intel Xeon Phi many-core coprocessor[C]//Proceedings of the 2014 IEEE 28th International Parallel&Distributed Processing Symposium Workshops(Par Learning),Phoenix,USA,May 19-25,2014.Piscataway,NJ,USA:IEEE,2014:1622-1630.
8Woodsend K,Gondzio J.Hybrid MPI/Open MP parallel linear support vector machine training[J].Journal of Machine Learning Research,2009,10:1937-1953.
9Narang A,Gupta R,Joshi A,et al.Highly scalable parallel collaborative filtering algorithm[C]//Proceedings of the 2010International Conference on High Performance Computing,Dona Paula,Dec 19-22,2010.Piscataway,NJ,USA:IEEE,2010:1-10.
10The Apache Software Foundation.Apache Mahout:scalable machine learning and data mining[EB/OL].(2014)[2014-10-06].http://mahout.apache.org/.

二级参考文献10

1张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：120
2Hadoop WT. The definitive guide.O'Reilly Media,Inc, 2009.
3Taiwan Hadoop Forum.http://forum.hadoop.tw/2009.
4Apache Hadoop.(2009-09-12).http://hadoop.apache.org/.
5McCallum A, Nigam K. A Comparison of Event Models for Naive Bayes Text Classification. AAAF ICML-98 Workshop on Learning for Text Categorization 1998:41-48.
6Dean J, Ghemawat S. MapReduce: Simplifed Data Processing on Large Clusters. Proc.of the 6th Symposium on Operating System Design and Implementation, San Francisco, 2004.
7Cutting D. Scalable Computing with MapReduce. Proc.of O'Reilly Open Source Convention, Poland. 2005.
8Salton G, Clement TY. On the construction of effective vocabularies for information retrieval. Proc. of the 1973 Meeting on Programming Languages and Information Retrieval, New York ACM, 1973:11.
9How BC, Narayanan K. An empirical study of feature selec- tion for text categorization based on term weightage. Proc. of the 2004 IEEE/WIC/ACM International Conference on Web Intelligence Washington DC: IEEE Computer Society, 2004:599-602.
10Basils R, Moschiiti A, Pazienza M. A test classifier based on linguistic processing. Proc. of IJCAIp, Machine Learning for Information Filtering, 1999.

共引文献22

1高翔,侯小静.数据挖掘技术综述[J].牡丹江教育学院学报,2008(6):109-110. 被引量：2
2肖大伟,王国胤,胡峰.一种基于粗糙集理论的快速并行属性约简算法[J].计算机科学,2009,36(3):208-211. 被引量：16
3白旭英,杨有龙.贝叶斯网络诱导的内积空间[J].电子科技,2009,22(7):1-4. 被引量：1
4李玲娟,张敏.云计算环境下关联规则挖掘算法的研究[J].计算机技术与发展,2011,21(2):43-46. 被引量：48
5林冬茂.数据挖掘技术在垃圾邮件检测中的应用[J].计算机仿真,2012,29(2):120-123. 被引量：6
6梁俊卿.基于动作图像特征的人体运动行为挖掘算法[J].计算机仿真,2013,30(9):424-427. 被引量：2
7鞠训光,邵晓根,鲍蓉,徐德兰,王海鹰.Hadoop下并行BP神经网络骆马湖水质分类[J].南京师大学报（自然科学版）,2014,37(1):52-56. 被引量：1
8邵晓根,鞠训光,胡局新,马忠伟.基于改进权重的贝叶斯推理和TFIDF算法文本主题词提取研究[J].南京师大学报（自然科学版）,2014,37(1):57-60. 被引量：5
9李圣普,王小辉,吕海莲.危险品运输车辆易燃信号挖掘方法研究与仿真[J].计算机仿真,2014,31(9):383-386.
10张志美,王旭,宣杨,何燕.石油勘探电磁层析成像在复杂岩层的应用仿真[J].计算机仿真,2014,31(9):407-410. 被引量：3

同被引文献78

1刘平峰,聂规划,陈冬林.基于知识的电子商务智能推荐系统平台设计[J].计算机工程与应用,2007,43(19):199-201. 被引量：19
2朱映辉,江玉珍.BIRCH聚类算法优化及并行化研究[J].计算机工程与设计,2007,28(18):4345-4346. 被引量：8
3叶明华.保险欺诈心理动因分析[J].中国保险,2007(8):60-61. 被引量：2
4Chang C C, Lin C J. LIBSVM: A library for support vector machines. ACM Transactions on Intelligent Systems and Technology, 2011,2 (3) : 75--102.
5Zaharia M, Chowdhury M, Das T, et al. Resilient distributed datasets: A fault-tolerant abstraction for in-memory cluster computing. In- Proceedings of the 9th USENIX Conference on Networked Systems Design and Implementation. Berkeley: USENIX Association, 2012,2 -- 16.
6Iehihashi H, Honda K, Notsu A. Comparison of scaling behavior between fuzzy c-means based classifier with many parameters and LibSVM. Fuzzy Systems,2011,35(2) :386--393.
7Joseph S M, Hameed A. Online handwritten malaya[am character recognition using LIBSVM in matlab. Australian Computer Society, 2014, 15(1) :21--25.
8郑哗,李剑.Scala程序设计.北京:人民邮电出版社,2010,1—196.
9黄海旭,高宇翔.Scala编程.北京:电子工业出版社,2010,30-278.
10浅谈分布式计算的开发与实现(一).http://www.cnblogs.com/mushroom/p/4959904.html.2015.

引证文献14

1李坤,刘鹏,吕雅洁,张国鹏,黄宜华.基于Spark的LIBSVM参数优选并行化算法[J].南京大学学报（自然科学版）,2016,52(2):343-352. 被引量：21
2何美斌,胡精英.基于SparkR的大数据分析平台设计[J].电子技术与软件工程,2016(21):184-184. 被引量：2
3李帅,吴斌,杜修明,陈玉峰.基于Spark的BIRCH算法并行化的设计与实现[J].计算机工程与科学,2017,39(1):35-41. 被引量：10
4曹耀辉.基于Spark平台的电商推荐系统的设计分析[J].自动化与仪器仪表,2017(7):100-103. 被引量：3
5庄荣,李玲娟.基于Spark的CVFDT分类算法并行化研究[J].计算机技术与发展,2018,28(6):35-38. 被引量：3
6张睿敏,张琪淼,杜叔强,贾桂霞.大数据环境下基于Spark的Bayes分类算法研究[J].工业仪表与自动化装置,2018(3):116-118. 被引量：2
7刘斌,何进荣,耿耀君,王最.并行机器学习算法基础体系前沿进展综述[J].计算机工程与应用,2017,53(11):31-38. 被引量：9
8刘鹏,王学奎,黄宜华,孟磊,丁恩杰.基于Spark的极限学习机算法并行化研究[J].计算机科学,2017,44(12):33-37. 被引量：6
9谭旭杰,邓长寿,吴志健,彭虎,朱鹊桥.云环境下求解大规模优化问题的协同差分进化算法[J].智能系统学报,2018,13(2):243-253. 被引量：1
10刘鹏,赵慧含,滕家雨,仰彦妍,刘亚峰,朱宗卫.面向大规模中文文本分类的朴素贝叶斯并行Spark算法（英文）[J].Journal of Central South University,2019,26(1):1-12. 被引量：18

二级引证文献82

1秦园丽,张训立,陶海军,王康.基于贝叶斯理论的兵棋演习数据分析方法研究[J].火箭军工程大学学报,2019(3):34-38. 被引量：1
2白永平,彭江红,王延卓.机器学习和数据挖掘在动物养殖行业中的应用研究进展[J].兽医导刊,2019(2):47-48.
3黄莹,郝新红,孔志杰,张彪.基于熵特征的调频引信目标与干扰信号识别[J].兵工学报,2017,38(2):254-260. 被引量：12
4李仕鲜,刘井泉,沈永刚.基于神经网络方法的LOCA事故诊断[J].核技术,2017,40(8):87-94. 被引量：5
5刘琪琛,雷景生,郝珈玮,黄燕刚,李强,罗海波.基于Spark平台和并行随机森林回归算法的短期电力负荷预测[J].电力建设,2017,38(10):84-92. 被引量：30
6李俊,李玲娟.基于最小生成树的K-均值算法设计与并行化实现[J].南京邮电大学学报（自然科学版）,2017,37(5):81-86. 被引量：5
7厉彦玲,赵庚星,常春艳,王卓然,王凌,郑佳荣.OLI与HSI影像融合的土壤盐分反演模型[J].农业工程学报,2017,33(21):173-180. 被引量：23
8玉建军,别书磊,孙博.燃气管网模式识别泄漏检测方法的敏感性研究[J].天津城建大学学报,2017,23(6):448-452.
9敬思,许建飞.基于知识图谱的机器学习领域研究进展分析[J].江苏科技信息,2018,35(13):18-21. 被引量：1
10祝永志.基于Spark技术的协同过滤推荐算法的可扩放性研究[J].电子技术（上海）,2018,47(7):41-42. 被引量：1

1赵成贵.互连网络局部迭代负载平衡技术[J].计算机与数字工程,2012,40(3):74-76.
2张曙晟.基于局部迭代的敏捷过程管理研究[J].软件导刊,2011,10(9):20-21. 被引量：2
3索红光,王玉伟.一种用于文本聚类的改进k-means算法[J].山东大学学报（理学版）,2008,43(1):60-64. 被引量：34
4于明,邳艳芹.一种图像的感兴趣区域提取方法[J].电子设计工程,2012,20(7):160-162. 被引量：3
5李晋江,张彩明,范辉,原达.基于分形的图像修复算法[J].电子学报,2010,38(10):2430-2435. 被引量：12
6张峥嵘,詹天明,韦志辉.结合相似性拟合与空间约束的图像分割[J].中国图象图形学报,2014,19(11):1596-1603.
7朱燕红.一种基于局部迭代的仿射投影算法[J].工业控制计算机,2015,28(11):93-94.
8马立新,侯楚林.改进的变步长比例仿射投影算法[J].计算机工程与应用,2011,47(28):131-134. 被引量：2
9陈霞.局部迭代NLMS算法研究[J].现代计算机（中旬刊）,2014(12):3-6. 被引量：1
10ZHOU Jing,HUANG DanYang,WANG HanSheng.A dynamic logistic regression for network link prediction[J].Science China Mathematics,2017,60(1):165-176. 被引量：2

计算机科学与探索

2015年第11期

浏览历史

内容加载中请稍等...

基于SparkR的分类算法并行化研究被引量：14

参考文献19

二级参考文献10

共引文献22

同被引文献78

引证文献14

二级引证文献82

相关作者

相关机构

相关主题

浏览历史

基于SparkR的分类算法并行化研究 被引量：14

参考文献19

二级参考文献10

共引文献22

同被引文献78

引证文献14

二级引证文献82

相关作者

相关机构

相关主题

浏览历史

基于SparkR的分类算法并行化研究被引量：14