基于GPU的Spark大数据技术在实验室的开发应用被引量：7

Department and Application of the GPU-based Spark Big Data Technology in Laboratory

下载PDF

导出

摘要在大数据时代,兼顾大数据处理与高性能计算是目前对计算机系统的迫切需求。针对Spark大数据处理与基于GPU的高性能计算,分析了基于GPU的Spark技术。它主要通过构建CPU和GPU的异构并行,使计算机获得强大的计算能力,并在实验室环境下探讨了Spark-GPU技术的实现,阐述了算法实现的技术流程。在此基础上,通过仿真实验评估了Spark和Spark-GPU技术的性能。实验表明,Spark-GPU技术可以达到上百倍的加速比,这对图像处理以及信息检索等领域的发展都具有重要推动作用。 In the era of big data,both big data processing and high performance computing are of the urgent needs of a computer system.Specific to Spark big data processing and high performance computing based on GPU,this paper analyzes the Spark technology based on GPU proposed by industry.It is mainly by constructing heterogeneous parallel of CPU and GPU,making computer to obtain a powerful computing capability.Then we discuss the implementation of the Spark-GPU technology in laboratory environment,and expound the technical process of algorithm realization in detail.On this basis,we assess the performance of the Spark and Spark- GPU technology through simulation experiment.Results show Spark-GPU technology can achieve hundredfold speedup,hence,it can play an important role in promoting the development of image processing and information retrieval and other areas.

作者周情涛何军胡昭华

机构地区南京信息工程大学电子与信息工程学院

出处《实验室研究与探索》 CAS 北大核心 2017年第1期112-116,131,共6页 Research and Exploration In Laboratory

基金国家自然科学基金(NSFC61203273) 江苏省自然科学基金(BK20141004)

关键词大数据处理异构计算图形处理器 big data processing heterogeneous computing graphics processing unit

分类号 TP302.1 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752. 被引量：616
2曾青华,袁家斌.基于MapReduce和GPU双重并行计算的云计算模型[J].计算机与数字工程,2013,41(3):333-336. 被引量：4
3付伟,严博,吴晓平.云计算实验平台建设关键技术研究[J].实验室研究与探索,2013,32(11):78-81. 被引量：20
4薛志云,何军,张丹阳,曹维焯.Hadoop和Spark在实验室中部署与性能评估[J].实验室研究与探索,2015,34(11):77-81. 被引量：14
5李佳佳,胡新明,吴百锋.基于异构GPU集群的并行分布式编程解决方案[J].计算机应用与软件,2014,31(9):28-31. 被引量：1

二级参考文献85

1张杨,诸昌钤,何太军.图形硬件通用计算技术的应用研究[J].计算机应用,2005,25(9):2192-2195. 被引量：6
2卢锡城,王怀民,王戟.虚拟计算环境iVCE:概念与体系结构[J].中国科学（E辑）,2006,36(10):1081-1099. 被引量：37
3蒋建洪.主要分布式搜索引擎技术的研究[J].科学技术与工程,2007,7(10):2418-2424. 被引量：10
4[OL].<http://hadoop.apache.org.>.
5WinterCorp: 2005 TopTen Program Summary. http:// www. wintercorp, com/WhitePapers/WC TopTenWP. pdf.
6TDWI Checklist Report: Big Data Analytics. http://tdwi. org/research/2010/08/Big-Data-Analytics, aspx.
7Chaudhuri S, Dayal U. An overview of data warehousing and OLAP technology. SIGMOD Rec, 1997,26(1): 65-74.
8Madden S, DeWitt D J, Stonebraker M. Database parallelism choices greatly impact scalability. DatabaseColumn Blog. http://www, databasecolumn, com/2007/10/database-parallelism-choices, html.
9Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters//Proceedings of the 6th Symposium on Operating System Design and Implementation (OSDI ' 04). San Francisco, California, USA, 2004: 137-150.
10DeWitt D J, Gerber R H, Graefe G, Heytens M L, Kumar K B, Muralikrishna M. GAMMA--A high performance dataflow database machine//Proceedings of the 12th International Conference on Very Large Data Bases (VLDB' 86). Kyoto, Japan, 1986:228-237.

共引文献650

1张刘玲.会展行业发展现状及未来发展趋势[J].质量与市场,2023(12):31-33. 被引量：2
2李明建.试论大数据技术的图书馆特色馆藏文化建设[J].作家天地,2020(21):189-190.
3江永渡,程德生,赵志武,王梨,江峰.基于Spark框架的大数据计算平台[J].网络安全技术与应用,2020,0(3):65-66. 被引量：3
4陈然.大数据时代下企业精准营销发展难题及破解[J].中国经贸导刊,2019,0(5Z):95-96. 被引量：4
5梅傲.数据治理的逻辑基础和实现路径[J].经济法论丛,2023(2):309-325. 被引量：1
6张文华.大数据对体育教育的冲击[J].贵阳学院学报（自然科学版）,2014,9(2):47-51. 被引量：19
7李满意.大数据安全[J].保密科学技术,2012(9):71-72. 被引量：19
8陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,25(S1):142-146. 被引量：344
9陈爱东,刘国华,费凡,周宇,万小妹,貟慧.满足均匀分布的不确定数据关联规则挖掘算法[J].计算机研究与发展,2013,50(S1):186-195. 被引量：18
10王习特,申德荣,聂铁铮,寇月,于戈.共享的MapReduce环境下批量作业的调度算法研究[J].计算机研究与发展,2013,50(S1):332-341. 被引量：2

同被引文献49

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：70
3郝艳华,范欣欣,王育民.亏格为3的超椭圆曲线除子加法的并行算法[J].计算机科学,2007,34(8):114-119. 被引量：2
4游林.一类超椭圆曲线上的快速除子标量乘[J].电子学报,2008,36(10):2049-2054. 被引量：2
5李馥娟.虚拟机技术在复杂网络实验中的应用[J].实验技术与管理,2009,26(12):79-83. 被引量：33
6许彦芹,陈庆奎.基于SMP集群的MPI+CUDA模型的研究与实现[J].计算机工程与设计,2010,31(15):3408-3412. 被引量：10
7史怀林,孙丰荣,姜威,刘炜,秦通,李新彩.CT图像SART重建技术的CUDA并行实现[J].计算机应用,2011,31(5):1245-1248. 被引量：5
8李建江,崔健,王聃,严林,黄义双.MapReduce并行编程模型研究综述[J].电子学报,2011,39(11):2635-2642. 被引量：186
9刘珂琴,潘雪涛,张美凤.网络虚拟实验室的设计与实现[J].现代电子技术,2011,34(24):171-173. 被引量：11
10张晗,谭箐,刘洪源.实验室内部网络终端安全管理[J].现代电子技术,2012,35(17):86-88. 被引量：5

引证文献7

1叶娟.基于网络数据包的大数据分析程序设计与开发[J].软件工程,2018,21(1):35-37. 被引量：1
2李馥娟.大数据实验室建设与应用研究[J].实验技术与管理,2018,35(5):243-246. 被引量：25
3叶娟.基于信息隐藏工具的大数据信息储存系统开发[J].软件工程,2017,20(11):38-40. 被引量：1
4荆宜青,郭清溥,刘洋.基于高速数据存储的大数据实验室构建方法研究[J].实验技术与管理,2019,36(3):270-272. 被引量：5
5刘海峰,肖超,梁星亮.HECC除子标量乘并行集群算法设计[J].现代电子技术,2019,42(10):23-26.
6熊威,曾有灵,李喆.一种利用Spark-GPU加速CT图像重建的设计[J].暨南大学学报（自然科学与医学版）,2019,40(6):556-564. 被引量：1
7吴建,邓红辉.竞赛驱动下的Spark大数据技术与应用课程教学改革探索[J].教育教学研究前沿,2024,2(4):33-36.

二级引证文献31

1王华,赵俊芳,王方田,马文顶.大数据背景下高校实验教学档案管理探讨[J].煤炭高等教育,2020(3):64-67. 被引量：1
2于淑香,王浩.基于大数据分析的网络安全系统优化算法改进研究[J].软件工程,2018,21(6):44-46. 被引量：3
3都娟,李纳.基于应用型高校的大数据实验室建设探究[J].时代农机,2018,45(10):158-158. 被引量：1
4段爱媛,刘洋.运输拓扑网络演化大数据虚拟仿真实验设计[J].实验技术与管理,2018,35(10):109-112. 被引量：3
5王军峰,陈保国.基于实训课程体系设计的大数据实验室建设研究[J].科技经济市场,2019(4):155-156. 被引量：3
6陈昌盛,李捍东,覃涛.常用电路元器件及应用课程教学改革与研究[J].科教文汇,2019,0(19):82-85.
7李支成,廖振松.大数据安全管理研究与探讨[J].信息通信,2019,0(6):40-41.
8王焱,吴青林.基于Docker和OpenStack的高校大数据云实验室构建[J].实验技术与管理,2019,36(9):254-258. 被引量：20
9龙虎,张泓筠.大数据环境下多载体图像信息隐藏系统设计[J].现代电子技术,2019,42(19):73-77. 被引量：1
10都娟.基于应用型高校的大数据实验室建设探究[J].西安铁路职业技术学院学报,2019,0(3):48-50.

1异构计算的挑战[J].程序员,2011(8):15-16.
2韩义,刘利民,陈建辉.基于DOM、XML技术的网络信息系统研究[J].福建电脑,2005,21(7):42-43.
3新的征程锐龙AMD Ryzen 7处理器[J].电脑爱好者,2017,0(9):15-24.
4曾国荪,陈闳中.探索计算系统异构性的描述[J].计算机科学,2003,30(12):16-18. 被引量：4
5杨志高,张贵,宾厚.网络通讯与实时监控系统的研究与开发[J].湘潭师范学院学报（自然科学版）,2003,25(1):39-41.
6英特尔的融核野心XeonPhi全解析[J].微型计算机,2013(3):149-155.
7虞志益.“异构计算”专题前言[J].电子技术应用,2017,43(3):5-5.
8张水平,李纪真,张凤琴,李晓波,余侃民.基于云计算的数据中心安全体系研究与实现[J].计算机工程与设计,2011,32(12):3965-3968. 被引量：26
9“异构计算”让科幻变成现实AMD发布A系列APU[J].数字家庭,2011(7):12-13.
10HMC.异构来临 HSA联盟初探[J].电脑迷,2013(7):26-26.

实验室研究与探索

2017年第1期

浏览历史

内容加载中请稍等...

基于GPU的Spark大数据技术在实验室的开发应用被引量：7

参考文献5

二级参考文献85

共引文献650

同被引文献49

引证文献7

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于GPU的Spark大数据技术在实验室的开发应用 被引量：7

参考文献5

二级参考文献85

共引文献650

同被引文献49

引证文献7

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于GPU的Spark大数据技术在实验室的开发应用被引量：7