GPU上的矩阵乘法的设计与实现被引量：7

Design and Implementation of Matrix Multiplication on GPU

下载PDF

导出

摘要矩阵乘法是科学计算中最基本的操作,高效实现矩阵乘法可以加速许多应用。本文使用NVIDIA的CUDA在GPU上实现了一个高效的矩阵乘法。测试结果表明,在Geforce GTX 260上,本文提出的矩阵乘法的速度是理论峰值的97%,跟CUBLAS库中的矩阵乘法相当。 Matrix multiplication is a basic operation in scientific computing. Efficient implementation of matrix multiplication can speed up many applications. In this paper, we implement an efficient matrix multiplication on GPU using NVIDINs CUDA. The experiment shows that our implementation is as fast as the implementation in CUBLAS, and the speed of our implementation can reach the peak speed＇s 97%, on Geforce GTX260.

作者梁娟娟任开新郭利财刘燕君

机构地区中国科学技术大学计算机科学与技术学院

出处《计算机系统应用》 2011年第1期178-181,149,共5页 Computer Systems & Applications

基金国家自然科学基金(60833004) 国家高技术研究发展计划(863)(2008AA010902)

关键词矩阵乘法 GPU CUDA matrix multiplication GPU CUDA

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1Goto K.Anatomy of High-Performance Matrix Multiplication[].ACM Transon Mathematical Software.2007
2Whaley RC,Petitet A,Dongarra J.Automated EmpiricalOptimization of Software and the Atlas Project[].Parallel Computation.2001
3Fatahalian K,Sugerman J,Hanrahan P.Understandingthe Efficiency of GPU Algorithms for Matrix-matrixMultiplication[].Procof the ACM SIGGRAPH/EUROGRAPHICS Conference on Graphics Hardware(HWWS’).2004
4Strassen V.Gaussian elimination is not optimal[].Numerical Mathematics.1969

同被引文献55

1蒋艳凰,杨学军,易会战.卫星遥感图像并行几何校正算法研究[J].计算机学报,2004,27(7):944-951. 被引量：20
2吴恩华,柳有权.基于图形处理器(GPU)的通用计算[J].计算机辅助设计与图形学学报,2004,16(5):601-612. 被引量：227
3胡峰,胡保生.并行计算技术与并行算法综述[J].电脑与信息技术,1999,7(5):47-59. 被引量：10
4李晓梅.并行算法的发展及其前沿研究课题[J].中国科学基金,1995,9(3):13-18. 被引量：3
5李宏寨,郭平.逆主元法盲目复原高斯模糊图像[J].通讯和计算机（中英文版）,2004,1(1):64-67. 被引量：3
6赵军,张东梅.平衡二叉树[J].电脑学习,2007(2):33-34. 被引量：2
7刘鑫,姜超,冯存永,等.基于CUDA和OpenCV的图像并行处理方法研究[J].测绘科学,2011,20(1):178-181.
8RAFAEL C GONZALEZ,RACHARD E Woods.冈萨雷斯数字图像处理[M].北京:电子工业出版社,2009:51-55.
9孙勇国,文必龙,巴铀.机械工程图图像快速旋转算法[J].哈尔滨科学技术大学学报,1996,30(6):21-26.
10NVIDIA Corporation.CUDA Programming Guide 4.1[EB/OL].http://www.nvidia.com,2011-08-20.

引证文献7

1李亚荣,刘佳.基于GPU并行处理的图像快速旋转算法[J].大连交通大学学报,2012,33(3):63-66. 被引量：1
2岳俊,邹进贵,何豫航.基于CPU与GPU/CUDA的数字图像处理程序的性能比较[J].地理空间信息,2012,10(4):45-47. 被引量：4
3陈浩,陈兆学,喻海中.基于CUDA的图像径向基模糊实现方法研究[J].中国医学物理学杂志,2012,29(6):3772-3776.
4张喜明,陈旸.基于VPX标准总线的GPGPU平台的图像几何校正[J].无线电工程,2014,44(1):53-55. 被引量：2
5康雷,张树本,杨坚.基于B/S模式的GPU集群管理系统设计[J].计算机工程,2015,41(10):6-9. 被引量：3
6金莉,王仁志,宋万杰.基于CUDA架构的AMTI算法实现[J].电子科技,2018,31(8):1-3.
7贺成,施华君.基于PRAM并行模型最大值查找的方法与改进[J].计算机系统应用,2019,28(10):138-144. 被引量：1

二级引证文献11

1高薇,曾健民.基于卷积神经网络算法的图像识别应用研究[J].西安文理学院学报（自然科学版）,2019,22(1):10-14. 被引量：8
2陈剑波,李宗华,侯卫民.VPX和ATCA机箱管理关系及异同[J].无线电工程,2014,44(11):63-66. 被引量：2
3郑志凌,郭李平,范明昊.Web集群管理系统的设计与实现[J].电子技术与软件工程,2016(5):58-59. 被引量：3
4张荣磊,田爱奎,谭浩,郑睿.基于卷积神经网络的图像识别算法研究[J].山东理工大学学报（自然科学版）,2018,32(1):48-50. 被引量：5
5夏岩石,闫静怡.基于B/S模式的图书馆教育信息远程检索系统设计[J].现代电子技术,2017,40(24):71-73. 被引量：8
6贾铁燕.基于CUDA的双二进制Turbo码并行译码方法[J].无线电工程,2018,48(2):149-153. 被引量：1
7任凯斌,曾鹏飞,郝永平.基于数字化生产车间的邮件系统设计与集成[J].信息技术与网络安全,2018,37(4):136-140. 被引量：1
8吴辉,罗清海,彭文武.GPU并行计算的CUDA架构浅析[J].教育教学论坛,2019(6):277-278. 被引量：2
9李承轩,舒忠.基于双线性插值的印刷图像旋转算法实现[J].现代计算机,2019,25(11):85-89. 被引量：3
10刘小豫,聂维,赵娟,吴份侠.CUDA框架视角下的图像处理并行算法分析[J].中小企业管理与科技,2020(25):184-185. 被引量：1

1黄海峰.Sun扩大高性能计算领先优势[J].通信世界,2009(44).
2微软携手曙光百万亿次超级计算机跻身10强[J].中国教育网络,2009(1):45-45.
3我国超级计算机国产化取得突破[J].科技与企业,2008(2):81-81.
4科技新知[J].决策与信息,2009(2):77-79.
5康海欢.TD-LTE物理层下行理论峰值速率分析[J].互联网天地,2013(5):28-31. 被引量：2
6孟金涛,贺鹏程,刘涛.Nehalem平台的Linpack参数训练与优化[J].华中科技大学学报（自然科学版）,2010,38(S1):55-58. 被引量：1
7我国第一台超千万亿次计算机系统研制成功[J].粮油食品科技,2010,18(5):75-75.
8我国研制成功首台采用龙芯2号的国产万亿次高性能计算机[J].中国科学院院刊,2008,23(1):79-79.
9杨海峰.AMD助力全球最大超级计算机[J].通信世界,2009(44).
10高性能计算机[J].技术与市场,2008(10):11-11.

计算机系统应用

2011年第1期

浏览历史

内容加载中请稍等...

GPU上的矩阵乘法的设计与实现被引量：7

参考文献4

同被引文献55

引证文献7

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

GPU上的矩阵乘法的设计与实现 被引量：7

参考文献4

同被引文献55

引证文献7

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

GPU上的矩阵乘法的设计与实现被引量：7