基于CUDA的稀疏矩阵与矢量乘法的优化被引量：6

Optimizations on Sparse Matrix-Vector Multiplication Based on CUDA

下载PDF

导出

摘要随着VLSI技术的发展,在单芯片上集成若干个处理器核的思想成为现实,现代GPU就是一个典型的多核处理器设备;由于面向计算密集型的应用发展非常迅速,当前的GPU又具有了较强的通用计算能力;全文首先介绍了CUDA和稀疏矩阵的相关知识;基于矩阵的CSR表示格式,文章提出了三种CUDA模型下的程序优化方法;论文分析并实现了这三种程序优化方法,在Geforce 9600GT上的实验结果表明,最大可以实现4倍左右的加速比。 With the development of VLSI technology, the idea of integrating multiple cores become realistic. Modern GPU is just a typical multi--core device. Because of the rapid evolution of computation--intensive application, the current GPU has the capability to complete the general computation. This paper first introduce the knowledge of CUDA and Sparse Matrix. Based on the CSR format of sparse matrix, three optimization methods of programme are presented under the CUDA model on the paper. They are all analyzed and implemented. Experiment is done on the Geforee 9600GT, and the final result shows that almost 4x speedup was achieved in contrast with the CPU computing.

作者周洪樊晓桠赵丽丽

机构地区西北工业大学航空微电子中心

出处《计算机测量与控制》 CSCD 北大核心 2010年第8期1906-1908,1912,共4页 Computer Measurement &Control

基金国家"863"基金项目(2009AA01Z110)

关键词 CUDA GPGPU CSR 并行计算稀疏矩阵与矢量相乘 CUDA GPGPU CSR parallel computation sparse matrix--vector multiplication.

分类号 TP303 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1杨志义,朱娅婷,蒲勇.基于统一计算设备架构技术的并行图像处理研究[J].计算机测量与控制,2009,17(4):734-737. 被引量：7
2Garland M. Sparse Matrix Computations on Manycore GPU's [R]. DAC, June. 2008.
3Bell N, Garland M, Efficient Sparse Matrix--Vector Multiplication on CUDA [R]. NVIDIA Technical Report NVR- 2008 -004, Dec. 2008.
4NVIDIA CUDA Programming Guide Version 2. 1[EB], http: // www. nvidia. com, 2008.
5Baskaran M M, Bordawekar R. Optimizing Sparse Matrix--vector Multiplication on GPUs [R]. IBM Research Report, April. 2009.
6NVIDIA CUDA C Programming Best Practices Guide [EB], http://www. nvidia. com, July. 2009.

二级参考文献5

1吴恩华.图形处理器用于通用计算的技术、现状及其挑战[J].软件学报,2004,15(10):1493-1504. 被引量：141
2NVIDIA Corporation.CUDA ProgrammingGuide 1.0[EB/OL].http://www.nvidia.com,2007.
3Tom R.Halfhil.Parallel Processing With CUDA.Microprocessor Report JR],Scottsdale,Arizona,Jan 28,2008.
4Shubhabrata Sengupta,Mark Harris,Yao Zhang,and John D.Owens.Scan Primitives for GPU Computing[A].Graphics Hardware 2007[C],San Diego,California,August 04-05,2007.
5John D.Owens,Mike Houston,David Luebke,et al.GPU Computing[J].Proceedings of the IEEE,2008 96 (5):879-897.

共引文献6

1蒋霓,段凌凤,杨万能,刘谦.基于并行处理技术的谷物粒型快速测量算法[J].光电工程,2012,39(3):66-71. 被引量：3
2李叶繁,张凯龙,周兴社.基于众核处理器的多计算模式构造技术研究[J].计算机测量与控制,2012,20(11):3098-3100. 被引量：1
3刘旭春,李德龙,刘津,刘杨,滕长胜,靖常峰.基于可编程GPU的遥感影像快速处理研究[J].测绘通报,2013(6):22-26. 被引量：3
4于艳东.基于DCT并行加速算法图像渲染平台系统设计[J].计算机测量与控制,2014,22(5):1516-1518. 被引量：2
5方伟,冯慧,杨万能,刘谦.表型检测中用于小麦株型研究的快速三维重建方法[J].中国农业科技导报,2016,18(2):95-101. 被引量：12
6张东方,张君,申书兴,范晓飞.基于光谱成像的大白菜叶色定量鉴定方法[J].河北农业大学学报,2021,44(6):57-62. 被引量：2

同被引文献31

1龙爱芳.避免二阶导数计算的迭代法[J].浙江工业大学学报,2005,33(5):602-604. 被引量：2
2王厂文,张有正.正定矩阵和的行列式不等式[J].浙江工业大学学报,2006,34(3):351-354. 被引量：1
3Jameson A, Schmidt W, Turkel E. Numerical solution of the euler e- quations by finite volume methods ssing runge-kutta time-stepping schemes. AIAA - 1981-1259. 1981.
4Brandvik T, Pullan G. Acceleration of 3D Euler solver using commod- ity graphics harware. AIAA-2008--607. 2008.
5NVIDIA. Cuda C best practices guide v4. 1. January 2012.
6Manolopoulos K,Reisis D,Chouliaras V A. An efficient multipleprecision floating-point multiplier [AJ. Electronics,Circuits andSystems(ICECS) [C]. 2011.
7Gong Renxi,Zhang Shangjun,Zhang Hainan. Hardware implemen-tation of a High Speed Floating Point Multiplier Based on FPGA[A]. Proceedings of 2009 4th International Conference on ComputerScience Education [C]. 2009.
8Venishetti S K,Akoglu A. A Highly Parallel FPGA based IEEE-754 Compliant Double-Precision Binary Floating-Point Multipli-cation Algorithm [ A ]. Field-Programmable Technology[C]. 2007.
9Folkert B, Rob H B, Henk A D. Accelerating a barotropic ocean model using a GPU[J]. Ocean Modelling, 2012, 41: 16-21.
10Jochen K. Advanced Ocean Modelling: Using Open-Source Soft- ware [M]. Berlin: Germany Springer, 2010: 21-35.

引证文献6

1张翔,黄秀全.基于图形处理器加速的叶轮机流场数值模拟研究[J].科学技术与工程,2013,21(11):3195-3199. 被引量：3
2夏炜,肖鹏.一种高效双精度浮点乘法器[J].计算机测量与控制,2013,21(4):1017-1020. 被引量：2
3王春晖,苗春葆,沈飙.非静压海洋数值模式加速计算的CUDA实现[J].中国海洋大学学报（自然科学版）,2013,43(8):107-113. 被引量：2
4郭转转,尹延庆,王佩璐.浅谈CUP并行技术CUDA[J].信息通信,2014,27(5):103-103. 被引量：1
5高家全,王志超.基于GPU的SSOR稀疏近似逆预条件研究[J].浙江工业大学学报,2016,44(2):140-145. 被引量：2
6杜松江,张思超.采用GPU的提升纹理缓存命中光线投射方法[J].华侨大学学报（自然科学版）,2016,37(5):627-632. 被引量：1

二级引证文献11

1武玉国,韩贝贝.基于地理坐标系的电磁环境快速仿真与体绘制[J].系统仿真学报,2020,32(3):362-370. 被引量：2
2刘晓刚.CUDA在教学软件开发中的应用[J].软件导刊,2016,15(12):124-126.
3彭章国,张征宇,王学渊,赖瀚轩,茆骥.基于FPGA的流水线单精度浮点数乘法器设计[J].微型机与应用,2017,36(4):74-77. 被引量：2
4李昊南.计算流体动力学在航空叶轮机械中的应用[J].神州,2017,0(33):212-212.
5李红豫,滕军,李祚华,张璐.图形处理器加速算法在复杂高层结构非线性响应分析中的应用[J].工程力学,2018,35(11):79-85. 被引量：2
6张留莹,王鹏飞,张峰,刘海龙,林鹏飞,王涛,韦俊林,田少博,姜金荣,迟学斌.海洋环流模式LICOM的GPU实现与优化[J].数据与计算发展前沿,2020,2(4):92-104. 被引量：3
7姚上上,沈立.基于混合压缩结构的新型浮点乘法器设计[J].微电子学与计算机,2021,38(9):74-78. 被引量：3
8张琨,贾金芳,黄建强,王晓英,严文昕.预处理共轭梯度算法异构并行求解及优化[J].小型微型计算机系统,2022,43(10):2040-2045.
9聂婕,左子杰,黄磊,王志刚,孙正雅,仲国强,王鑫,王玉成,刘安安,张弘,董军宇,魏志强.面向海洋的多模态智能计算:挑战、进展和展望[J].中国图象图形学报,2022,27(9):2589-2610. 被引量：4
10张东飞,高军辉.GPU加速高阶谱差分方法在风扇噪声中的应用[J].航空学报,2024,45(8):118-132.

1朱仁芝,吴若云.三维视见变换公式的矢量推导方法[J].研究生教育研究,1995(4):27-30.
2黄兴,宋建新.基于GPU的视频转码技术研究[J].电视技术,2012,36(1):26-29. 被引量：1
3罗予东.分形图像网格服务的XML解决方案[J].计算机与现代化,2008(3):73-76.
4刘洋,周劲,袁宁.基于XML的数字图书馆元数据的研究[J].济南大学学报（自然科学版）,2006,20(4):333-335. 被引量：5
5岁丰.以CD-ROM盘为基础的议会用信息系统[J].管理观察,1994,0(9):48-48.
6金成,张义伟.基于元数据的内容管理平台的研究[J].电脑知识与技术,2015(2):8-12.
7田慧.IP地址及子网掩码的应用[J].大众科技,2005,7(11):143-144.
8黎书生,周功业.MPEG—7：多媒体技术的新风景线[J].电子计算机,2002(2):6-10.
9魔之左手.平板的商务能力和GPU的通用计算能力[J].大众软件,2011(24):67-67.
10齐亚峰,吴力明,文锦芬,李晨源.基于索引表的专家系统知识库表示与推理应用[J].云南民族大学学报（自然科学版）,2007,16(2):157-160. 被引量：3

计算机测量与控制

2010年第8期

浏览历史

内容加载中请稍等...

基于CUDA的稀疏矩阵与矢量乘法的优化被引量：6

参考文献6

二级参考文献5

共引文献6

同被引文献31

引证文献6

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于CUDA的稀疏矩阵与矢量乘法的优化 被引量：6

参考文献6

二级参考文献5

共引文献6

同被引文献31

引证文献6

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于CUDA的稀疏矩阵与矢量乘法的优化被引量：6