基于GPU的矩阵求逆性能测试和分析被引量：10

Performance Testing and Analysis for Matrix Inversion Base on GPU

下载PDF

导出

摘要在CPU串行运算模式下实现大规模矩阵求逆是一个非常耗时的过程。为了解决这一问题,基于NVIDIA公司专为GPU(图形处理器)提供的CUDA(计算统一设备架构),从新的编程角度出发,利用GPU多线程并行处理技术,将矩阵求逆过程中大量的数据实现并行运算,从而获得了较大的加速比。同时,根据程序的执行结果,分析了GPU的单精度与双精度的浮点运算能力及其优、劣势。最后,通过分析数据传输时间对GPU性能的影响,总结出适合GPU的算法特征。 For the CPU serial operation mode,it is a very time-consuming process to obtain the inverse of large-scale matrix.Aiming at the above shortcoming,this paper proposes a new programming method based on the common platform CUDA for GPU designed by NVIDIA.By using the multi-threaded parallel processing technology of GPU,a large scale of data during solving the inverse matrix are parallelly computed such that a higher speedup may be obtained.Moreover,both the single-precision and the double-precision FLOPS of GPU are analyzed according to the results of this program.Finally,some characteristics of the proposed algorithms are summarized by analyzing the effect of the data transmission time on the performance of GPU.

作者刘丽沈杰李洪林

机构地区华东理工大学信息科学与工程学院华东理工大学药学院

出处《华东理工大学学报（自然科学版）》 CAS CSCD 北大核心 2010年第6期812-817,共6页 Journal of East China University of Science and Technology

基金国家"973"计划基金项目(2009CB918501) 国家自然科学基金项目(20803022)

关键词图形处理器(GPU) 计算统一设备架构(CUDA) CPU 并行运算矩阵求逆 GPU CUDA CPU parallel computation matrix inversion

分类号 TP311.11 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献19

1Bianchi L, Gatti R, Lombardi L. The future of parallel computing: GPU vs CELL: General purpose planning against fast graphical computation architectures, which is the best solution for general purposes computation? [C]// Proceedings of the Third International Conference on Computer Graphics Theory and Applications, GRAPP. Madeira, Portugal: [s. n.], 2008: 419-425.
2Myungho L, Chin H C, Sugwon H. Financial derivatives modeling using GPU's [C]// Proceedings of the 2009 Interna- tional Conference on Scalable Computing and Communications. Dalian, China: IEEE Computer Society, 2009: 440- 445.
3Preis T, Virnau P, Paul W, analysis by graphic cards and et al. Accelerated fluctuation complex pattern formation in financial markets [J]. New Journal of Physics, 2009, 11(9): 093024.
4Zhao Ye. Lattice Boltzmann based PDE solver on the GPU [J]. Visual Compute, 2007, 24: 323-333.
5Manavski S, Valle G. CUDA compatible GPU cards as efficient hardware accelerators for Smith-Waterman sequence alignment[J]. BMC Bioinformatics, 2008, 9: 1344-1365.
6Ufimtsev I S, Martmez T J. Quantum chemistry on graphical processing units [J]. Journal of Chemical Theory and Computation, 2008, 4(2): 222-231.
7Owens J D, Houston M, Luebke D, et al. GPU computing [J]. Proceedings of the IEEE, 2008, 96(5): 879-899.
8Manuel U, UmitV C. High-performance signal processing on emerging many-core architectures using CUDA [C] // International Conference on Multimedia and Expo. USA: IEEE, 2009: 1825-1828.
9Macioof P, Banas K. Testing tesla architecture for scientific computing: The performance of matrix-vector product [C]// International Multiconference on Computer Science and Information Technology. USA: IEEE,2008: 263-269.
10Kruger J, Westermann R. Linear algebra operators for GPU implementation of numerical algorithms [C]//International Conference on Computer Graphics and Interactive Techniques, ACM Transactions on Graphics. New York, USA: ACM Press, 2005: 6-9.

同被引文献99

1吴恩华.图形处理器用于通用计算的技术、现状及其挑战[J].软件学报,2004,15(10):1493-1504. 被引量：141
2杨志军,陈塑寰,吴晓明.结构静态拓扑重分析的迭代组合近似方法[J].力学学报,2004,36(5):611-616. 被引量：14
3王俊,水鹏朗,保铮,张守宏.基于分数迟延估计的外辐射源雷达杂波相消算法[J].西安电子科技大学学报,2005,32(3):378-382. 被引量：14
4龙凯,左正兴,肖涛,蒲大宇.组合近似方法在结构优化中的应用[J].中国机械工程,2007,18(9):1043-1046. 被引量：3
5蒋长锦.科学计算与C程序集[M].中国水利水电出版社,2010.
6黄友钦.风雪共同作用下大跨度屋盖结构的动力稳定[D].上海:同济大学,2010.
7NVIDIA. CUDA Programming Guide[OL].2012-12-22. http:// www.nvidia,com/object/cuda_home.html.
8李荣华,刘播著.微分方程数值解法(第四版)[M].高等教育出版社,2010.
9武汉大学,山东大学著.计算方法[M],科学出版社,1983.
10Kirsch U. Design-Oriented Analysis of Structures[M]. London: Kluwer Academic Publishers,2002.

引证文献10

1李斌,谭光华,高春鸣.改进基本矩阵计算和优化的多摄像机并行标定算法[J].计算机应用,2013,33(8):2300-2305. 被引量：1
2彭土有.基于GPU-CUDA的共轭斜量法实现及性能对比[J].计算机时代,2014(4):4-6. 被引量：1
3贺冠强,王琥,黄观新,李光耀.基于GPU平台的大规模汽车结构重分析[J].中国机械工程,2014,25(15):2117-2123.
4陈伟,万显荣,张勋,饶云华,程丰.外辐射源雷达多通道时域杂波抑制算法并行实现[J].雷达学报（中英文）,2014,3(6):686-693. 被引量：12
5韩琪,蔡勇.基于GPU的大规模拓扑优化问题并行计算方法[J].计算机仿真,2015,32(4):221-226. 被引量：5
6杨智诚,饶瑞.多自由度结构静风响应的GPU并行计算[J].计算机辅助工程,2015,24(4):82-86. 被引量：1
7张坚,万显荣,刘玉琪.外辐射源雷达滑窗扩展相消算法并行实现[J].雷达科学与技术,2017,15(2):115-119. 被引量：4
8杨林峰,胡桂莉,张晨,张振荣.基于CPU-GPU协同并行内点算法求解结构化非线性规划[J].电子学报,2019,47(2):382-389. 被引量：2
9姜大闯,潘鸣,俞旭辉,王静,桂小刚,汪瑞,江兆凤,於景暽.基于GPU的振动光纤入侵探测数据预处理算法[J].太赫兹科学与电子信息学报,2019,17(5):898-903. 被引量：1
10贾东,温博,施健,罗扬静,王海涛.一种LDLT分解的外辐射源雷达杂波抑制并行处理技术[J].无线电工程,2024,54(1):150-156.

二级引证文献25

1蔡勇,李胜.Matlab的图形处理器并行计算及其在拓扑优化中的应用[J].计算机应用,2016,36(3):628-632. 被引量：3
2刘宇,吕晓德,杨鹏程.一种无源雷达频域扩展相消批处理杂波对消算法[J].雷达学报（中英文）,2016,5(3):293-301. 被引量：9
3张坚,万显荣,刘玉琪.外辐射源雷达滑窗扩展相消算法并行实现[J].雷达科学与技术,2017,15(2):115-119. 被引量：4
4何云浩,程丰,王慧.杂波图检测在外辐射源雷达中的应用研究[J].计算机仿真,2018,35(10):28-32. 被引量：2
5饶云华,徐凯文,王胜涛,万显荣,龚子平.采样定时偏差对无源雷达性能影响研究[J].雷达科学与技术,2018,16(1):79-86. 被引量：1
6周晖,黄英,吴海洲,于益农,于益农.统一测控系统新一代综合基带设计研究[J].雷达科学与技术,2018,16(1):87-92. 被引量：7
7杨尚昆,王岩松,郭辉,王孝兰,刘宁宁.基于一阶径向畸变算法的双目摄像机多位姿标定方法[J].计算机应用,2018,38(9):2655-2659. 被引量：8
8苏辉,邱夏青,马文鹏.基于Matlab平台有限元方法的GPU加速[J].信阳师范学院学报（自然科学版）,2018,31(4):677-680. 被引量：3
9夏建明,郑恒.基于独立分量分析的外辐射源雷达主瓣同邻频干扰抑制研究[J].信息技术与信息化,2019(7):156-159. 被引量：1
10谷国太,肖汉.求解线性方程组的GPU并行算法[J].河南水利与南水北调,2019,48(10):70-72. 被引量：1

1赵红芳,胡波,陈杰,檀蕾.重模多项式的分解及求逆[J].河北省科学院学报,2009,26(1):4-8. 被引量：1
2何镓.云计算在Web漏洞检测中的应用[J].科技创新与应用,2014,4(36):70-70.
3吴琼.云计算环境下的分布存储关键技术[J].中国新通信,2017,19(6):45-45.
4翁宁龙,刘冉,吴子章.一种改进的LBP特征的人脸识别方法[J].信息通信,2011,24(3):3-4. 被引量：1
5赵明阳,杨晓妮.云计算及其关键技术[J].软件（教育现代化）（电子版）,2013,3(5):115-116. 被引量：1
6罗东.浅论云计算技术[J].民营科技,2016(11):77-77.
7刘苗,黄朝兵.基于多特征自适应融合的MeanShift目标跟踪方法[J].现代计算机（中旬刊）,2016(4):68-72. 被引量：3
8屈盛福.终端虚拟化技术在加油站的应用[J].电子世界,2014(12):201-202.
9李晓慧.专家集成系统革新运算模式[J].信息方略,2012(8):14-14.
10王晓莉,郭建英,王胜坤.OFDM系统中基于训练序列的参数信道估计算法的改进[J].电脑开发与应用,2008,21(2):21-23.

华东理工大学学报（自然科学版）

2010年第6期

浏览历史

内容加载中请稍等...

基于GPU的矩阵求逆性能测试和分析被引量：10

参考文献19

同被引文献99

引证文献10

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于GPU的矩阵求逆性能测试和分析 被引量：10

参考文献19

同被引文献99

引证文献10

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于GPU的矩阵求逆性能测试和分析被引量：10