面向DCU的LDS访存向量化优化被引量：1

Vectorization Optimization of LDS Memory Access for DCU

下载PDF

导出

摘要在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问应遵循一定原则才能高效利用,当线程间的数据访问呈现重叠的访存特征时,访问向量化指令会因此产生延迟。针对此问题,提出面向DCU的LDS访存向量化优化方法。通过实现连续数据访问的向量化,减少LDS的访问次数,降低访存耗时,由此提高程序访存效率。在此基础上,通过设计访存特征的判断方法,提出能够有效解决数据重叠的LDS访存向量化方法,实现一种面向国产通用加速器的LDS高效访存技术,确保向量化方法对访存效率的有效提升。实验结果表明:在使用LDS的异构程序中,LDS访存向量化实现后程序性能平均提升了22.6%,验证了所提方法的有效性;同时,向量化方法能够实现LDS线程间访存数据重叠问题的优化,使异构程序得到平均30%的性能提升。 In a domestic general-purpose accelerator Deep Computing Unit(DCU),Local Data Shared(LDS)is a key storage component with a lower latency and higher bandwidth than global memory.As heterogeneous programs use LDS more frequently,the low memory access efficiency of LDS has become an important limiting factor in the performance of heterogeneous programs.In addition,owing to bank conflicts in the LDS access process,LDS access must follow certain principles to be used efficiently.When the data access between threads presents overlapping memory access characteristics,access vectorization instructions create delays.To address this problem,an optimization method for the LDS memory access vectorization for the DCU is proposed.This method reduces the number of LDS accesse and time-consuming memory accesse by realizing the vectorization of continuous data access,thereby improving the efficiency of program memory access.On this basis,through the determination of memory access characteristics,an LDS access vectorization method that can effectively address data overlap is proposed,and an efficient LDS memory access technology for domestic general-purpose accelerators is realized to ensure the vectorization method effectively improve the memory access efficiency.The experimental results demonstrate that in the heterogeneous programs using LDS,the program performance is improved by an average of 22.6%after the LDS access vectorization is implemented,which verifies the effectiveness of this study.Simultaneously,the vectorization method can realize the overlapping of memory access data between LDS threads,and improves the performance of heterogeneous programs by an average of 30%.

作者杨思驰赵荣彩韩林王洪生 YANG Sichi;ZHAO Rongcai;HAN Lin;WANG Hongsheng(School of Computer and Artificial Intelligence,Zhengzhou University,Zhengzhou 450000,Henan,China;National Supercomputing Center in Zhengzhou,Zhengzhou 450000,Henan,China)

机构地区郑州大学计算机与人工智能学院国家超级计算郑州中心

出处《计算机工程》 CAS CSCD 北大核心 2024年第2期206-213,共8页 Computer Engineering

基金河南省重大科技专项(221100210600)。

关键词深度计算器本地数据共享访存向量化访存特征 bank冲突 Deep Computing Unit(DCU) Local Data Shared(LDS) memory access vectorization memory access characteristic bank conflict

分类号 TP314 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1李嘉楠,韩林,柴赟达.面向国产平台的LLVM自动向量化移植与优化[J].计算机工程,2022,48(1):142-148. 被引量：2
2杨世伟,蒋国平,宋玉蓉,涂潇.基于GPU的稀疏矩阵存储格式优化研究[J].计算机工程,2019,45(9):23-31. 被引量：5
3王琦,韩林,姚金阳,陶小涵.不充分SIMD向量化技术研究[J].计算机应用与软件,2018,35(9):108-112. 被引量：4
4徐金龙,赵荣彩,刘鹏,李晓亮.程序向量化中非规则访存问题研究[J].计算机工程,2015,41(12):86-90. 被引量：2
5贺婷.基于数据级自动向量化的编译优化研究综述[J].智能计算机与应用,2016,6(6):68-71. 被引量：1
6梁军,李威,肖琳,徐歆恺.NVIDIA Tegra K1异构计算平台访存优化研究[J].计算机工程,2016,42(12):44-49. 被引量：3
7杜晓刚,党建武,王阳萍.基于CUDA的改进互信息并行计算方法[J].计算机工程,2015,41(12):288-292. 被引量：3
8原建伟,李爱国,李文宇.GPU编程模型中存储体冲突的研究[J].河北工业科技,2013,30(1):39-41. 被引量：2
9张吉赞,古志民.多核共享缓存bank冲突分析及其延迟最小化[J].计算机学报,2016,39(9):1883-1899. 被引量：5
10赵志建.基于CUDA并行优化的矩阵相乘算法研究[J].智能计算机与应用,2022,12(11):192-196. 被引量：3

二级参考文献80

1李冬梅,陈军霞.聚类分析法在公交网络评价中的应用[J].河北科技大学学报,2012,33(3):279-282. 被引量：6
2吴圣宁,李思昆.多媒体处理器的SIMD代码生成[J].计算机科学,2007,34(7):268-270. 被引量：2
3AllenR,KennedyK现代体系结构的优化编译器[M].张兆庆,乔如良,冯晓兵,等,译.北京:机械工业出版社,2004.
4KENNETH M, EDWARD A. The FFT on a GPU[A]. Pro- ceedings of the ACM Siggraph/Eurographics Conference on Graphics Hardware[C]. San Diego : [s. n.], 2003.112-119.
5NVIDIA.Corporation CUDA2.0编程指南[EB/OL].http://down.csdn.net/detail/gaopengpian/2788197,2010-10-27.
6Intel Corporation. Intel 64 and IA-32 Architectures Software Developer' s Manual [EB/OL ]. 12014-11-15 1. http ://www. intel, com/Assets/PDF/manual/252046, pdf.
7Stewart J. An Investigation of SIMD Instruction Sets[D]. Ballarat,Australia:University of Ballarat,2005.
8D'Arcy P, Beach S. StarCore SC140: A New DSP Architecture for Portable Devices[ Z]. 1999.
9Amarasinghe S P,Anderson J A M,Lam M S, et al. An Overview of the SUIF Compiler for Scalable Parallel Machines [ C]//Proceedings of the 7th SIAM Con- ference on Parallel Processing for Scientific Computing. Philadelphia, USA : SIAM, 1995:662-667.
10Naishlos D. Autovectorization in GCC [ C ]//Proceed- ings of 2004 GCC Developers Summit. Ottawa, Canada: [ s. n. ] ,2004 : 105-118.

共引文献19

1岳彦芳,杨光,张永弟,吴松和.牙颌模型区域标记分割算法[J].河北科技大学学报,2014,35(1):34-38. 被引量：1
2梁军,李威,肖琳,徐歆恺.NVIDIA Tegra K1异构计算平台访存优化研究[J].计算机工程,2016,42(12):44-49. 被引量：3
3张青,王珂,张春艳,张强.基于高性能并行计算的旋转网球空气动力学模拟[J].计算机工程,2017,43(12):45-50. 被引量：2
4许武,梁军,李威,徐鹏飞,徐圣瑞,张福贵.异构计算平台激光雷达算法优化研究[J].计算机工程,2018,44(7):1-7. 被引量：3
5张吉赞,苑雅娟.多核共享资源冲突延迟上限优化方法[J].计算机科学与探索,2017,11(8):1224-1234. 被引量：3
6王颖洁,周宽久,李明楚.实时嵌入式系统的WCET分析与预测研究综述[J].计算机科学,2019,46(B06):16-22. 被引量：7
7肖汉,李彩林,李琦,周清雷.CPU+GPU异构并行的矩阵转置算法研究[J].东北师大学报（自然科学版）,2019,51(4):70-77. 被引量：3
8王波,唐洁,张瑞.基于Bank地址的IABA冲突分析及优化[J].北京理工大学学报,2020,40(7):738-745.
9李希敏,李书琪.基于粗糙集的多源数据库缓存冲突自动处理方法[J].计算机与现代化,2020(10):36-39. 被引量：2
10叶锡聪,庄灿锋,王宇木,吴鹏飞,潘志铭,廖力灵,孙轶群.RISC-V向量指令集的Compute Library函数库移植[J].单片机与嵌入式系统应用,2021,21(1):8-13. 被引量：4

同被引文献3

1池昊宇,陈长波.基于机器学习的编译器自动调优综述[J].计算机科学,2022,49(1):241-251. 被引量：7
2刘功晗,李悦,王晓玲.面向航天异构平台的深度学习编译器加速技术优化[J].航天控制,2022,40(2):60-65. 被引量：2
3申云飞,申飞,李芳,张俊.基于张量虚拟机的深度神经网络模型加速方法[J].计算机应用,2023,43(9):2836-2844. 被引量：1

引证文献1

1高伟,李帅龙,茆琳,王磊,李颖颖,韩林.一种基于TVM的算子生成加速策略[J].计算机工程,2024,50(8):353-362.

1汤嘉武,郑龙,廖小飞,金海.面向高性能图计算的高效高层次综合方法[J].计算机研究与发展,2021,58(3):467-478. 被引量：4
2左飞航,贠建明,金鼎.森林资源“一张图”与国土三调数据融合方法研究[J].测绘与空间地理信息,2024,47(1):85-88. 被引量：1
3刘家旭,赵中英,何辉,梁添增.电网多元异构数据模糊聚类方法研究[J].精密制造与自动化,2023(3):38-40.
4孟可悦,徐沛.射频阻抗标准器量值定标及溯源技术研究[J].计量与测试技术,2024,51(1):1-5. 被引量：1

计算机工程

2024年第2期

浏览历史

内容加载中请稍等...

面向DCU的LDS访存向量化优化被引量：1

参考文献10

二级参考文献80

共引文献19

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

面向DCU的LDS访存向量化优化 被引量：1

参考文献10

二级参考文献80

共引文献19

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

面向DCU的LDS访存向量化优化被引量：1