面向稀疏矩阵向量乘的DMA设计与验证

Design and Verification of DMA for Sparse Matrix-Vector Multiplication

下载PDF

导出

摘要稀疏矩阵向量乘法(SpMV)是迭代法求解大型线性方程组的核心算法,被广泛应用在科研和工程中。高性能共轭梯度算法(HPCG)是评价高性能计算系统性能的测试程序之一,需要多次调用SpMV进行迭代计算。但是,SpMV计算过程中包含大量不规则访存操作,降低了系统计算性能。基于X-DSP项目,在DMA中设计一条面向SpMV的专用数据通道实现不规则访存的功能,提高HPCG算法运算速度。设计代码的验证与综合结果表明预期的功能实现正确,且满足项目对时序、面积和功耗的要求。 Sparse Matrix-Vector Multiplication(SpMV)is the core algorithm for solving large linear equations by iterative method,which is widely used in scientific research and engineering.The High Performance Conjugate Gradient(HPCG)algorithm is one of the test programs for evaluating the performance of high performance computing systems.It requires multiple calls to SpMV for iterative calculations.However,the SpMV calculation process contains a large number of irregular memory access operations,which reduces the system computing performance.Based on the X-DSP project,a dedicated data channel for SpMV is designed in the DMA to realize the irregular memory access function,and the HPCG algorithm operation speed is improved.Verification and synthesis of the design code indicate that the expected functionality is implemented correctly and it meets the project’s timing,area,and power requirements.

作者曹亚松刘胜 CAO Yasong;LIU Sheng(School of Computer Science,National University of Defense Technology,Changsha 410073)

机构地区国防科技大学计算机学院

出处《计算机与数字工程》 2019年第11期2686-2690,共5页 Computer & Digital Engineering

关键词稀疏矩阵向量乘法(SpMV) 直接内存存取(DMA) 压缩稀疏行(CSR) Sparse Matrix-Vector Multiplication(SpMV) Direct Memory Access(DMA) Compressed Sparse Row(CSR)

分类号 O183.1 [理学—基础数学]

引文网络
相关文献

参考文献13

1纪国良,丁勇,周曼,冯仰德.工程计算中大型稀疏矩阵存储方法研究[J].数值计算与计算机应用,2018,39(3):217-230. 被引量：8
2刘芳芳,杨超.一种提高SpMV向量化性能的新型稀疏矩阵存储格式[J].数值计算与计算机应用,2014,35(4):269-276. 被引量：4
3李佳佳,张秀霞,谭光明,陈明宇.选择稀疏矩阵乘法最优存储格式的研究[J].计算机研究与发展,2014,51(4):882-894. 被引量：10
4程凯,田瑾,马瑞琳.基于GPU的高效稀疏矩阵存储格式研究[J].计算机工程,2018,44(8):54-60. 被引量：8
5宋庆增,顾军华.稀疏矩阵向量乘的FPGA设计与实现[J].计算机工程,2011,37(23):214-216. 被引量：3
6李斌,江玮.高性能共轭梯度(HPCG)基准测试优化[J].电脑编程技巧与维护,2017(16):37-38. 被引量：1
7程凯,田瑾,吴飞,汪茹,李洪芹.基于分块存储格式的稀疏线性系统求解优化[J].计算机应用研究,2019,36(11):3352-3356. 被引量：2
8张禾,陈客松.基于FPGA的稀疏矩阵向量乘的设计研究[J].计算机应用研究,2014,31(6):1756-1759. 被引量：8
9尹孟嘉,许先斌,何水兵,胡婧,叶从欢,张涛.GPU稀疏矩阵向量乘的性能模型构造[J].计算机科学,2017,44(4):182-187. 被引量：3
10王迎瑞,任江勇,田荣.基于GPU的高性能稀疏矩阵向量乘及CG求解器优化[J].计算机科学,2013,40(3):46-49. 被引量：7

二级参考文献95

1吴恩华,柳有权.基于图形处理器(GPU)的通用计算[J].计算机辅助设计与图形学学报,2004,16(5):601-612. 被引量：226
2赵雪菲,么焕民.Laplace方程九点差分格式的构造及其误差估计[J].哈尔滨师范大学自然科学学报,2011,27(4):6-9. 被引量：4
3张永杰,孙秦.稀疏矩阵存储技术[J].长春理工大学学报（自然科学版）,2006,29(3):38-41. 被引量：14
4Saad Y.Iterative methods for sparse linear systems[M].Society for Industrial Mathematics,2003.
5Foley T,Houston M,Hanrahan P.Efficient partitioning of fragment shaders for multiple-output hardware[C] ∥Proceedings of the ACM SIGGRAPH/EUROGRAPHICS Symposium on Gra-phics Hardware.Grenoble,France,Eurographics Association,2004:45-53.
6CUDPP:CUDA data parallel primitives library[OL].http://www.gpgpu.org/developer/cudpp/.
7Bell N,Garland M.Efficient sparse matrix-vector multiplication on CUDA[R].NVIDIA Technical Report NVR-2008-004.Dec.2008.
8Im E J,Yelick K A,Vuduc R.Sparsity:Framework for optimizing sparse matrix-vector multiply[J].International Journal of High Performance Computing Applications,2004,18(l):135-158.
9Mellor C J,Garvin J.Optimizing sparse matrix-vector product computations using unroll and jam[J].International Journal of High Performance Computation Application,2004,18(2):225-236.
10Nishtal A R,Vuduc R,Demmel J,et al.When cache blocking sparse matrix vector multiply works and why[J].Applicable Algebra in Engineering,Communications and Computing,2007,18(3):297-311.

共引文献49

1李熙铭,欧阳丹彤,白洪涛.基于GPU的混合精度平方根共轭梯度算法[J].仪器仪表学报,2012,33(1):97-104. 被引量：6
2狄鹏,胡长军,李建江.一种高效直方图生成算法在GPU上的实现[J].计算机科学,2012,39(3):304-307. 被引量：2
3原建伟,王坤,李爱国.基于GPU的K-means并行算法研究与实现[J].陕西理工学院学报（自然科学版）,2012,28(5):44-48.
4彭宇,仲雪洁,王少军.基于FPGA线性方程组的存储优化设计[J].计算机工程,2013,39(4):287-290. 被引量：3
5李佳佳,张秀霞,谭光明,陈明宇.选择稀疏矩阵乘法最优存储格式的研究[J].计算机研究与发展,2014,51(4):882-894. 被引量：10
6阳王东,李肯立,石林.一种准对角矩阵的混合压缩算法及其与向量相乘在GPU上的实现[J].计算机科学,2014,41(7):290-296. 被引量：5
7王坤.基于GPU的分类并行算法的研究与实现[J].电子设计工程,2014,22(18):39-41. 被引量：3
8寇大治,孔大力.有限元网格积分算法在MIC众核平台上的并行实现[J].计算机科学,2015,42(11):56-58.
9黄敏,丁萍,罗海飚.共轭梯度法在GPU及Xeon Phi下的并行优化及比较[J].华南理工大学学报（自然科学版）,2015,43(11):35-46. 被引量：1
10阳王东,李肯立.基于HYB格式稀疏矩阵与向量乘在CPU+GPU异构系统中的实现与优化[J].计算机工程与科学,2016,38(2):202-209. 被引量：7

1刘峰,刘玉婷,裴梓翔,马益平,郭高鹏.高电压直流充电桩系统设计与验证[J].电工技术,2019,0(20):108-110.
2无.搭载ISO 26262认证IP的集成ADAS域控制器芯片[J].中国集成电路,2019,28(11):82-84.
3胡林,唐岚,李亚,吕康,何云飞.液压助力转向器性能台架试验设计与验证[J].农业装备与车辆工程,2019,57(11):76-79. 被引量：1
4杨铮,刘麟霄.人工智能环境下的出版流程重塑与内容生产革新[J].编辑之友,2019,0(11):13-17. 被引量：6
5胡午杰,袁功林.求解非线性方程组的一种三项共轭梯度法[J].广西大学学报（自然科学版）,2019,44(5):1485-1490. 被引量：2
6重点科技项目介绍[J].计量技术,2019,0(10).
7陈欣,戴翰,兰玉果,蒙柳汛.应用强推组播技术实现应急广播传输系统方案[J].有线电视技术,2019,26(11):85-86.
8唐璟,张静.论新时期武器装备建设形态下的装备质量管理[J].中国科技纵横,2019,0(20):217-218.
9王锦涵,李研,班冬松,陶涛.基于国产处理器直连接口的设计与验证[J].计算机与数字工程,2019,47(11):2700-2704. 被引量：3
10任瑞武,田桂花,黄柏忠,赵鹏,罗军.基于PLC技术的换流站自动补药控制系统设计[J].自动化应用,2019,0(7):23-24. 被引量：2

计算机与数字工程

2019年第11期

浏览历史

内容加载中请稍等...

面向稀疏矩阵向量乘的DMA设计与验证

参考文献13

二级参考文献95

共引文献49

相关作者

相关机构

相关主题

浏览历史