基于Spark的极限学习机算法并行化研究被引量：6

Study of ELM Algorithm Parallelization Based on Spark

下载PDF

导出

摘要极限学习机算法虽然训练速度较快,但包含了大量矩阵运算,因此其在面对大数据量时,处理效率依然缓慢。在充分研究Spark分布式数据集并行计算机制的基础上,设计了核心环节矩阵乘法的并行计算方案,并对基于Spark的极限学习机并行化算法进行了设计与实现。为方便性能比较,同时实现了基于Hadoop MapReduce的极限学习机并行化算法。实验结果表明,基于Spark的极限学习机并行化算法相比于Hadoop MapReduce版本的运行时间明显缩短,而且若处理数据量越大,Spark在效率方面的优势就越明显。 Extreme learning mechine(ELM)has high training speed,but with lots of matrix operations,it rernams poor efficiency while applied to massive amount of data.After thorough research on parallel computation of Spark resilient distributed dataset(RDD),we proposed and implemented a parallelized algorithm of ELM based on Spark.And for convenienceof performance comparison,Hadoop-MapReduce-based version was also implemented.Experimental results show that the training efficiency of the Spark-based ELM parallelization algorithm is significantly improved than the Hadoop-MapReduce-based version.If the amount of data processed is greater,the advantage of Spark in efficiency is more obvious.

作者刘鹏王学奎黄宜华孟磊丁恩杰 LIU Peng;WANG XUe-kui;HUANG Yi-hua;MENG Lei;DING En-jie(Internet of Things Perception Mine Research Centre,China University of Mining and Technology,Xuzhou221008,China;National and Local Joint Engineering Laboratory of Internet Application Technology on Mine,Xuzhou221008,China;Schoo1 of Information and Control Engineering,China University of Mining and Technology,Xuzhou221116,China;PASA Big-data Laboratory.Department of Computer Science,Nanjing University,Nanjing210023,China)

机构地区中国矿业大学物联网(感知矿山)研究中心矿山互联网应用技术国家地方联合工程实验室中国矿业大学信息与控制工程学院南京大学计算机系PASA大数据实验室

出处《计算机科学》 CSCD 北大核心 2017年第12期33-37,共5页 Computer Science

基金国家重点研发计划:矿山安全生产物联网关键技术与装备研发(2017YFC0804400 2017YFC0804401) 国家自然科学基金项目(61471361 41302203)资助

关键词限学习机并行化 SPARK RDD Hadoop MAPREDUCE ELM Parallelization Spark RDD Hadoop MapReduce

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1刘志强,顾荣,袁春风,黄宜华.基于SparkR的分类算法并行化研究[J].计算机科学与探索,2015,9(11):1281-1294. 被引量：14

二级参考文献19

1刘华元,袁琴琴,王保保.并行数据挖掘算法综述[J].电子科技,2006,19(1):65-68. 被引量：15
2Dean J,Ghemawat S.Map Reduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
3Zaharia M,Chowdhury M,Das T,et al.Resilient distributed datasets:a fault-tolerant abstraction for in-memory cluster computing[C]//Proceedings of the 9th USENIX Conference on Networked Systems Design and Implementation,San Jose,USA,Apr 25-27,2012.Berkeley,CA,USA:USENIX Association,2012.
4The R Foundation.The R project for statistical computing[EB/OL].[2014-10-06].http://www.r-project.org/.
5Amplab-extras.Spark R(R frontend for Spark)[EB/OL].[2014-09-25].http://amplab-extras.github.io/Spark R-pkg/.
6Liu Chuang.Research on classification algorithms based on multicore computing[D].Nanjing:Nanjing University of Aeronautics and Astronautics,2011.
7Jin Lei,Wang Zhaokang,Gu Rong,et al.Training large scale deep neural networks on the Intel Xeon Phi many-core coprocessor[C]//Proceedings of the 2014 IEEE 28th International Parallel&Distributed Processing Symposium Workshops(Par Learning),Phoenix,USA,May 19-25,2014.Piscataway,NJ,USA:IEEE,2014:1622-1630.
8Woodsend K,Gondzio J.Hybrid MPI/Open MP parallel linear support vector machine training[J].Journal of Machine Learning Research,2009,10:1937-1953.
9Narang A,Gupta R,Joshi A,et al.Highly scalable parallel collaborative filtering algorithm[C]//Proceedings of the 2010International Conference on High Performance Computing,Dona Paula,Dec 19-22,2010.Piscataway,NJ,USA:IEEE,2010:1-10.
10The Apache Software Foundation.Apache Mahout:scalable machine learning and data mining[EB/OL].(2014)[2014-10-06].http://mahout.apache.org/.

共引文献13

1李坤,刘鹏,吕雅洁,张国鹏,黄宜华.基于Spark的LIBSVM参数优选并行化算法[J].南京大学学报（自然科学版）,2016,52(2):343-352. 被引量：21
2何美斌,胡精英.基于SparkR的大数据分析平台设计[J].电子技术与软件工程,2016(21):184-184. 被引量：2
3李帅,吴斌,杜修明,陈玉峰.基于Spark的BIRCH算法并行化的设计与实现[J].计算机工程与科学,2017,39(1):35-41. 被引量：10
4曹耀辉.基于Spark平台的电商推荐系统的设计分析[J].自动化与仪器仪表,2017(7):100-103. 被引量：3
5庄荣,李玲娟.基于Spark的CVFDT分类算法并行化研究[J].计算机技术与发展,2018,28(6):35-38. 被引量：3
6张睿敏,张琪淼,杜叔强,贾桂霞.大数据环境下基于Spark的Bayes分类算法研究[J].工业仪表与自动化装置,2018(3):116-118. 被引量：2
7刘斌,何进荣,耿耀君,王最.并行机器学习算法基础体系前沿进展综述[J].计算机工程与应用,2017,53(11):31-38. 被引量：10
8谭旭杰,邓长寿,吴志健,彭虎,朱鹊桥.云环境下求解大规模优化问题的协同差分进化算法[J].智能系统学报,2018,13(2):243-253. 被引量：1
9LIU Peng,ZHAO Hui-han,TENG Jia-yu,YANG Yan-yan,LIU Ya-feng,ZHU Zong-wei.Parallel naive Bayes algorithm for large-scale Chinese text classification based on spark[J].Journal of Central South University,2019,26(1):1-12. 被引量：21
10王燕,曹建芳,李艳飞.融合混合优化组合的大规模场景图像分类算法[J].计算机技术与发展,2019,29(9):86-91. 被引量：2

同被引文献53

1张梦元.基于CUDA的矩阵乘法的并行实现[J].信息通信,2012,25(2):20-21. 被引量：2
2刘沛华,鲁华祥,龚国良,刘文鹏.基于FPGA的全流水双精度浮点矩阵乘法器设计[J].智能系统学报,2012,7(4):302-306. 被引量：8
3何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336. 被引量：327
4陆俊,陈志敏,龚钢军,徐志强,祁兵.基于极限学习机的居民用电行为分类分析方法[J].电力系统自动化,2019,43(2):97-104. 被引量：41
5崔翔,李晓雯,陈一峯.基于Parray数组类型的矩阵乘法实现[J].计算机学报,2014,37(12):2564-2573. 被引量：1
6王云龙,吴瑛.基于GPU的相关干涉仪算法实现[J].信息工程大学学报,2015,16(1):41-45. 被引量：4
7王连喜,蒋盛益.一种基于特征聚类的特征选择方法[J].计算机应用研究,2015,32(5):1305-1308. 被引量：20
8周磊涛,陶耀东,刘生,李锁.基于FPGA的Systolic乘法技术研究[J].计算机工程与科学,2015,37(9):1632-1636. 被引量：6
9黄文辉,冯瑞.基于Spark Streaming的视频/图像流处理与新的性能评估方法[J].计算机工程与科学,2015,37(11):2055-2060. 被引量：10
10陈侨安,李峰,曹越,龙明盛.基于运行数据分析的Spark任务参数优化[J].计算机工程与科学,2016,38(1):11-19. 被引量：22

引证文献6

1张立佳,赖晓平,曹九稳.正则化超限学习机的多分块松弛交替方向乘子法[J].模式识别与人工智能,2019,32(12):1107-1115. 被引量：3
2张捷.基于极限学习机算法的图书馆读者借阅行为分析[J].现代电子技术,2020,43(5):121-124. 被引量：3
3李宏志,李苋兰,赵生慧.基于Spark的大规模文本KNN并行分类算法[J].湖南科技大学学报（自然科学版）,2020,35(1):90-97. 被引量：2
4张震.并行程序中多路径数据相似性检测方法研究[J].自动化与仪器仪表,2020(6):26-28. 被引量：1
5肖汉,肖诗洋,李彩林,周清雷.异构平台上基于OpenCL的矩阵乘并行算法[J].西南大学学报（自然科学版）,2020,42(11):147-153. 被引量：3
6侯秀聪,赖晓平,曹九稳.正则化超限学习机的最大分划广义交替方向乘子法[J].电子学报,2021,49(4):625-630.

二级引证文献12

1黄海洋.基于NB-IoT的多道并行程序数据召测模型研究[J].现代电子技术,2021,44(3):16-20. 被引量：2
2侯秀聪,赖晓平,曹九稳.正则化超限学习机的最大分划广义交替方向乘子法[J].电子学报,2021,49(4):625-630.
3王粲,夏元清,邹伟东.基于自适应动量优化算法的正则化极限学习机[J].计算机应用研究,2021,38(6):1724-1727. 被引量：7
4刘志强.基于极限学习机的模拟应用程序加载模式识别系统设计[J].现代电子技术,2021,44(21):140-143.
5史东海,王洁,崔诚.基于EMD和PCA的滚动轴承故障诊断研究[J].汽车实用技术,2021,46(23):94-96. 被引量：8
6黄敬频,白瑞,徐云,赵耿威.四元数矩阵的直积分解及最佳逼近[J].西南师范大学学报（自然科学版）,2022,47(2):1-6. 被引量：1
7卢成晓,陈添源.基于灰色系统模型的用户借阅行为分析实证[J].闽南师范大学学报（自然科学版）,2022,35(1):36-44. 被引量：1
8张玲,张小娟.基于相关性分析的大学生借阅行为模式研究——以榆林学院图书馆为例[J].现代电子技术,2022,45(9):88-92. 被引量：1
9黄静霞,杨国龙.基于大数据技术的学生行为挖掘与预测研究[J].无线互联科技,2022,19(20):120-122. 被引量：1
10孙祥杰,朱亮,余同欢.基于OpenCL的SAR影像快速浏览方法研究[J].电子质量,2023(3):24-30.

1王路.老爸是怎样落伍的?[J].风流一代,2017,0(17):13-13.
2刘利锋,吴小东,黄永宗.基于spark的推荐系统设计[J].电脑迷,2017(11):33-33. 被引量：2
3宋士吉,李爽.跨领域分布适配超限学习机及其在域自适应问题的应用[J].中国计量大学学报,2017,28(4):409-417. 被引量：1
4蒲和平,李厚彪.对矩阵乘法定义的教学探讨[J].高等数学研究,2018,21(1):65-67. 被引量：1
5邢翀.云框架下的文本挖掘算法并行化研究[J].设备管理与维修,2017(19):43-44.
6王磊,刘兆伟.基于极限学习机的机器人类人运动轨迹控制方法研究[J].数字技术与应用,2017,35(12):61-62. 被引量：4
7刘复昌,王双建,潘志庚,王金荣.并行化碰撞检测算法综述[J].系统仿真学报,2017,29(11):2601-2607. 被引量：4
8庞文武,陈炳耀,毛秋燕,温海军,罗国涛,何冬梅.油性木器漆发展前景探讨[J].现代商业,2018(5):242-243. 被引量：1
9王丕直.循环函数[J].中学数学教学参考,1995,0(6):29-32.
10邓青,杨宁.基于Spark框架的改进并行K-means算法研究[J].智能计算机与应用,2018,8(1):76-78. 被引量：2

计算机科学

2017年第12期

浏览历史

内容加载中请稍等...

基于Spark的极限学习机算法并行化研究被引量：6

参考文献1

二级参考文献19

共引文献13

同被引文献53

引证文献6

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于Spark的极限学习机算法并行化研究 被引量：6

参考文献1

二级参考文献19

共引文献13

同被引文献53

引证文献6

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于Spark的极限学习机算法并行化研究被引量：6