一种面向OpenCL架构的矩阵-向量乘并行算法与实现被引量：2

Matrix-vector Multiplication Parallel Algorithm and Implementation for OpenCL Architecture

下载PDF

导出

摘要矩阵-向量乘法算法的时间复杂度大,传统计算方法的实时性和跨平台性难以保证.本文提出一种基于开放式计算语言(Open Computing Language,OpenCL)的矩阵-向量乘并行算法,矩阵-向量乘法过程被分解成若干具有不同粒度的子任务.根据相应的并行度,每个工作组进行矩阵中的行块与列向量的乘积,每个工作项进行行块中行向量与列向量的乘积,并把计算任务分别分配到计算单元和处理单元进行处理.实验结果表明,与基于CPU的串行算法、基于OpenMP并行算法和基于统一计算设备架构(Compute Unified Device Architecture,CUDA)并行算法性能相比,矩阵-向量乘并行算法在OpenCL架构下NVIDIA图形处理器(Graphic Processing Unit,GPU)计算平台上分别获得了20. 86倍、6. 39倍和1. 49倍的加速比.验证了提出的并行优化方法的有效性和性能可移植性. The time complexity of matrix-vector multiplication algorithm is large,and the real-time and cross-platform performance of traditional computing methods is difficult to guarantee. This paper presents a matrix-vector multiplication parallel algorithm based on Open Computing Language( OpenCL),and the matrix-vector multiplication process is decomposed into several subtasks with different granularity. According to the corresponding degree of parallelism,each work-group carries on the product of the rowblock in the matrix and the column vector,each work-item carries on the product of the rowvector in the rowblock and the column vector,and assigns the computation task separately to the compute unit and the processing element for processing. The experimental results showthat compared with the performance of the serial algorithm based on CPU,parallel algorithm based on OpenMP and parallel algorithm based on Compute Unified Device Architecture( CUDA),the matrix-vector multiplication parallel algorithm obtains 20. 86 times,6. 39 times and 1. 49 times speedup in the NVIDIA GPU computing platform under the OpenCL architecture respectively. The validity and performance portability of the proposed parallel optimization method are verified.

作者肖汉周清雷姚鹏姿 XIAO Han;ZHOU Qing-lei;YAO Peng-zi(School of Information Science and Technology,Zhengzhou Normal University,Zhengzhou 450044,China;School of Information Engineering,Zhengzhou University,Zhengzhou 450001,China)

机构地区郑州师范学院信息科学与技术学院郑州大学信息工程学院

出处《小型微型计算机系统》 CSCD 北大核心 2019年第1期26-30,共5页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61572444 61250007)资助

关键词矩阵-向量乘图形处理器开放式计算语言并行算法 matrix-vector multiplication GPU OpenCL parallel algorithm

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1邬贵明,王淼,谢向辉,窦勇,郭松.面向定制结构的稀疏矩阵分块方法[J].计算机科学,2015,42(11):63-64. 被引量：1
2苏锦柱,邬贵明,贾迅.二元域大型稀疏矩阵向量乘的FPGA设计与实现[J].计算机工程与科学,2016,38(8):1530-1535. 被引量：4
3薛永江,宋庆增,王瑞昆.浮点矩阵向量乘法的FPGA设计与优化[J].微电子学与计算机,2013,30(11):64-67. 被引量：2
4吴长茂,杨超,尹亮,刘芳芳,孙乔,李力刚.基于CPU-MIC异构众核环境的行星流体动力学数值模拟[J].数值计算与计算机应用,2017,38(3):197-214. 被引量：1
5张爱民,安虹,姚文军,梁伟浩,江霞,李丰.基于Intel Xeon Phi的稀疏矩阵向量乘性能优化[J].小型微型计算机系统,2016,37(4):818-823. 被引量：1
6李政,冯春生,张晨松.一种针对GPU上的油藏数值模拟的高效SpMV[J].数值计算与计算机应用,2016,37(4):315-324. 被引量：2

二级参考文献20

1邓松,何开成,韩文报.用GF(q)上的块Wiedemann算法求解非齐次稀疏线性方程组[J].信息工程大学学报,2007,8(3):294-297. 被引量：2
2Clive“Max”Maxfield.FPGA设计指南:器件、工具和流程[M].杜生海,邢闻,译.北京:人民邮电出版社,2007.
3Morris G. Mapping sparse matrix scientific applica- tions onto FPGA augmented recon- figurable super- computers[D]. California: University of Southern Cali- fornia, 2006.
4Zhuo L, Prasanna V K. Scalable and modular algo- rithms for floating point matrix multiplication on reconfigurable computing systems[J]. IEEE Transac- tions on Parallel and Distributed Systems, 2007,18(4) : 433-448.
5Zhuo L, Prasanna V K. Scalable hybrid designs for inear algebra on reconfigurable computing systems [J]. IEEE Transactions on Computers, 2008,57 (12) : 1661-1975.
6Scrofano R, Zhuo L. Area-efficient arithmetic ex- pression evaluation using deeply pipelined floating- Joint cores[J]. IEEE Transactions on Very Large cale Integration (VLSI) Systems, 2008, 16 (2) : 167- 176.
7Baboulin M, Buttari A. Accelerating scientific compu- tations with mixed precision algorithms[J]. Computer Physics Communications, 2009,180(12) : 2526-2533.
8Dorrance R,Ren F,Markovic D. A Scalable Sparse Matrix-Vec-tor Multiplication Kernel for Energy-Efficient Sparse-BLAS onFPGAs[C] // Proceedings of the 2014 ACM/SIGDA Interna-tional Symposium on Field-Programmable Gate Arrays C FP-GA). ACM,2014:16M70.
9Fowers J, Ovtcharov K.Strauss K,et al. A High Memory Band-width FPGA Accelerator for Sparse Matrix-Vector Multiplica-tion[C] // Proceedings of the 2014 IEEE 22nd Annual Interna-tional Symposium on Field-Programmable Custom ComputingMachines (FCCM). IEEE, 2014: 36-43.
10Zhuo L,Prasanna V K. Sparse Matrix-Vector Multiplication onFPGAs[C]//Proceedings of the 13th ACM/SIGDA Internation-al Symposium on Field Programmable Gate Arrays (FPGA).ACM, 2005:63-74.

共引文献4

1高菲,贾涛.基于DSP+FPGA线性结构的计算机图像处理系统设计研究[J].电子设计工程,2018,26(17):189-193. 被引量：7
2陈元科,张冬梅,崔书岳,张宇洋.多重介质油藏数值模拟异构并行算法研究[J].计算机工程与科学,2020,42(10):1880-1886.
3王晞阳,陈继林,李猛,刘首文.FPGA架构上面向稀疏矩阵求解的静态调度算法[J].计算机工程,2022,48(7):199-205. 被引量：5
4蔺丽华,张美春,王佳仪,李敏,门浩.基于BWDSP1042的复数矩阵向量乘的优化与实现[J].计算机应用与软件,2023,40(3):298-301.

同被引文献11

1吴恩华,柳有权.基于图形处理器(GPU)的通用计算[J].计算机辅助设计与图形学学报,2004,16(5):601-612. 被引量：226
2王海峰,陈庆奎.图形处理器通用计算关键技术研究综述[J].计算机学报,2013,36(4):757-772. 被引量：27
3薛永江,宋庆增,王瑞昆.浮点矩阵向量乘法的FPGA设计与优化[J].微电子学与计算机,2013,30(11):64-67. 被引量：2
4阳王东,李肯立.基于HYB格式稀疏矩阵与向量乘在CPU+GPU异构系统中的实现与优化[J].计算机工程与科学,2016,38(2):202-209. 被引量：7
5苏锦柱,邬贵明,贾迅.二元域大型稀疏矩阵向量乘的FPGA设计与实现[J].计算机工程与科学,2016,38(8):1530-1535. 被引量：4
6尹孟嘉,许先斌,何水兵,胡婧,叶从欢,张涛.GPU稀疏矩阵向量乘的性能模型构造[J].计算机科学,2017,44(4):182-187. 被引量：3
7王玉林,郑启龙,赵高义.魂芯DSP上复数类型的支持和优化[J].计算机系统应用,2017,26(9):40-45. 被引量：2
8杨振浩,郑启龙,邓文齐,王向前.魂芯DSP高效访存并行FFT算法研究[J].小型微型计算机系统,2018,39(7):1377-1380. 被引量：5
9陈超,齐峰.卷积神经网络的发展及其在计算机视觉领域中的应用综述[J].计算机科学,2019,46(3):63-73. 被引量：136
10刘余福,郎文辉,贾光帅.HXDSP平台上矩阵乘法的实现与性能分析[J].计算机工程,2019,45(4):25-29. 被引量：4

引证文献2

1蔺丽华,张美春,王佳仪,李敏,门浩.基于BWDSP1042的复数矩阵向量乘的优化与实现[J].计算机应用与软件,2023,40(3):298-301.
2张淮声,余莉,陈翔翔.基于样板的GPU线程快速构造方法[J].集成电路应用,2024,41(5):18-21.

1吴进,刘应,刘镇弢,李乔深.基于OpenCL机器视觉算法GPU实现[J].计算机工程与设计,2019,40(2):346-351. 被引量：3
2张津,周祥全,舒漫,王玉兰,魏友华,柳炳利.基于GPU的单幅图像去雾的实现及优化[J].计算机应用研究,2019,36(1):312-315. 被引量：7
3大联大友尚集团推出基于ST技术的车联网智能影音及仪表显示解决方案[J].世界电子元器件,2018(8):56-56.
4王聪,巫南克,王世锋.GPU并行在匹配追踪算法中的应用[J].工程地球物理学报,2018,15(5):567-572. 被引量：2
5数据科学、矩阵和向量空间[J].语数外学习（高中版）（上）,2019(1):55-59.
6邵帅.并行计算的发展及前景[J].科技经济导刊,2019(2):6-6.
7刘俊见,陶宗明.OpenMP并行计算在侧向散射激光雷达数据处理中的应用[J].计算机与数字工程,2019,47(2):266-271. 被引量：3
8陈熙宁,马蔚吟,李力.基于Spark的指纹定位数据处理方法[J].计算机工程与应用,2019,55(4):79-83. 被引量：2
9阳育德,陶琢,刘辉,覃智君.电力系统静态安全最优潮流并行计算方法[J].电力自动化设备,2019,39(1):99-105. 被引量：11
10朱昶胜,金显,冯力,肖荣振.基于OpenCL并行流动影响三维共晶生长多相场模拟[J].兰州理工大学学报,2019,45(1):11-17. 被引量：1

小型微型计算机系统

2019年第1期

浏览历史

内容加载中请稍等...

一种面向OpenCL架构的矩阵-向量乘并行算法与实现被引量：2

参考文献6

二级参考文献20

共引文献4

同被引文献11

引证文献2

相关作者

相关机构

相关主题

浏览历史

一种面向OpenCL架构的矩阵-向量乘并行算法与实现 被引量：2

参考文献6

二级参考文献20

共引文献4

同被引文献11

引证文献2

相关作者

相关机构

相关主题

浏览历史

一种面向OpenCL架构的矩阵-向量乘并行算法与实现被引量：2