数字信号变换函数在多簇VLIW DSP上的优化被引量：2

Optimization of Digital Signal Transformation Functions in Multicluster VLIW DSP

下载PDF

导出

摘要针对BWDSP100体系结构特点,基于循环展开、指令调度以及软件流水等并行优化技术,结合多簇超长指令架构的特点,通过使用超算硬件指令、零开销循环、指令重新编排与并行等方法对BWDSP100数字信号处理函数库中的函数实施并行化,并基于库中原有的顺序版本实现并行优化版本。实验结果表明,在4宏并行化模式下,所有函数加速比达到9以上,90%的函数加速比超过10,平均加速比为11.12。 According to the characteristics of BWDSP100 processor＇s architecture,this paper presents several practical ways to improve the performance of digital signal transformation functions in Digital Signal Processor（ DSP） function library,including using special assembly instructions,instruction-level reordering,zero-overhead looping instruction,Instruction-level Parallelism（ ILP）,software vectorization and pipelining. It realizes parallel optimization version in library based on the original order version. Experimental results showthat,in four-macro parallel mode,all digital signal transformation functions can achieve 9x speedup,90% functions can achieve 10 x speedup,and 11. 12 x speedup is achieved on average.

作者甄扬顾乃杰叶鸿

机构地区中国科学技术大学计算机科学与技术学院中国科学技术大学安徽省计算与通信软件重点实验室中国科学技术大学先进技术研究院

出处《计算机工程》 CAS CSCD 北大核心 2016年第3期47-52,共6页 Computer Engineering

基金高等学校学科创新引智计划基金资助项目(B07033) 安徽省自然科学基金资助项目"基于GPU集群的深度神经网络并行部署和优化策略研究"(1408085MKL06)

关键词超长指令字单指令流多数据流数字信号处理器循环展开并行化多簇 Very Long Instruction Word（VLIW） Single Instruction Multiple Data（SIMD） Digital Signal Processor（DSP） loop unrolling parallelization multicluster

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1中国电子科技集团公司第三十八研究所.BWDSP100软件用户手册[z].2014.
2吴曼青.中国研发新型雷达系统打破西方技术垄断[EB/OL].[2015-02-11].http://news.xinhuanet.com/18cpcnc/2012-11/13/c_113679376.htm.
3孟占红,赵保军.基于DSP的实时图像压缩软件优化技术研究[J].电子学报,2006,34(9):1558-1561. 被引量：7
4李世军.JPEG图像压缩编码算法的DSP优化实现[J].微计算机信息,2012(9):193-195. 被引量：2
5Kharin A, Vityazev S, Vityazev V, et al. Parallel FFT Implementation on TMS320c66x Multicore DSP I C ]// Proceedings of the 6th European Embedded Design in Education and Research Conference. Washington D. C., USA : IEEE Press ,2014:46-49.
6Qian Zhihong,Cao Lei,Su Weilian,et al. Recent Advances in Computer Science and Information Engineering ~ M 1. Berlin, Germany : Springer-Verlag ,2012.
7Sasanka R,Cook J J, Das A, et al. Analyzing Potential Benefits of Vectorization : USA, US20140258677 A11 P 1. 2014-09-11.
8Turkington D A. Generalized Vectorization, Cross-pro- ducts, and Matrix Calculus I M 1. Cambridge, UK: Cambridge University Press ,2013.
9Yang Yangzhao, Gu Naijie, Zhao Zeng, et al. IPRAR: A DFG-based Approach to Instruction Clustering for Multi-cluster VLIW DSP Processor with SIMD Structure [ J ]. Journal of Computational Information Systems, 2014, 10 (3) : 1257-1269.
10Cooley J W, Tukey J W. An Algorithm for the Machine Calculation of Complexes Fourier Series [ J ]. Mathematics of Computation, 1965,19 ( 19 ) :297-301.

二级参考文献23

1覃团发,秦德兴,刘运毅,张淑仪.基于TMS320C6416的宽带语音G.722.2声码器的实时实现[J].电声技术,2006,30(1):48-51. 被引量：1
2Julien Reichel,Gloria Menegaz,Marcus J Nadenau,Murat Kunt.Integer wavelete transform for embedded lossy to lossless image compression[J].IEEE Transactions on Image Processing,2001,10(3):383-384.
3Jian Wang,Bogong Su.A scalableloop optimization approach for scalable DSP processors[J].IEEE AS,SP[C].Istanbul,Turkey:IEEE,2000.
4Lawson C L, Hanson R J, Kincaid D R, et al. Basic linear algebra subprograms for Fortran usage[J]. ACM Transactions on Mathematical Software, 1979, 5 (3) : 308-323.
5Dongarra J J, Croz J D, Hammarling S, et al. An extended set of Fortran basic linear algebra subprograms[J]. ACM Transactions on Mathematical Software, 1988, 14(1): 1-17.
6Dongarra J J, Croz J D, Hammarling S, et al. A set of level 3 basic linear algebra subprograms [J]. ACM Transactions on Mathematical Software, 1990, 16(1): 1-17.
7Dongarra J J, Croz J D, Hammarling S, et al. A set of level 3 basic linear algebra subprograms: model implementation and test programs[J]. ACM Transactions on Mathematical Software, 1990, 16(1):18-28.
8Mannheim University, University of Tennessee. Top500 [EB/OL ]. http://www.netlib.org/ benchmark/top500. html.
9Chi X B, Li Y C, Sun J C, et al. Developing high performance bLAS, LAPACK & ScaLAPACK on HITACHI SRS000 [C]// Proceedings of the 4th International Conference/Exhibition on High Performance Computing in the Aisa-Pacific Region. Beijing, China: IEEE Computer Society, 2000, 2: 993-997.
10Zhuo L, Prasanna V K. Design tradeoffs for BLAS operations on reconfigurable hardware [ C ]// International Conference on Parallel Processing. Oslo, Norway: IEEE Press, 2005: 78-86.

共引文献19

1胡新华,邓元勇,王先平.遵循xDM标准的PGF压缩编码器优化设计[J].光学精密工程,2008,16(7):1273-1278. 被引量：1
2张俊霞,李春生,张焕杰.KD-50-I-E:一台增强型高性能计算机[J].中国科学技术大学学报,2009,39(8):894-896. 被引量：5
3李晖,李凯,吴俊敏,孙广中,陈国良.KD-50-I中的无盘启动技术、文件系统架构及BLAS库优化[J].小型微型计算机系统,2009,30(10):2085-2089.
4李毅,何颂颂,李恺.多核龙芯3A上二级BLAS库的优化[J].计算机系统应用,2011,20(1):163-167. 被引量：8
5叶有时,赵保军,唐林波,蔡晓芳.多目标实时跟踪可编程片上系统的软件优化[J].光学精密工程,2011,19(3):681-689. 被引量：4
6陈国良,蔡晔,罗秋明.国产个人高性能计算机系统研制[J].深圳大学学报（理工版）,2011,28(6):471-477. 被引量：4
7吕孟军,郭琪,李罡,海雯炯.某型航空发动机综合检测系统研制关键技术[J].自动化与仪表,2012,27(1):15-19. 被引量：2
8陈强,何颂颂,王坤.龙芯3A上复数矩阵乘法的多线程优化[J].电子技术（上海）,2011,38(12):1-3. 被引量：1
9何颂颂,顾乃杰,朱海涛,刘燕君.面向龙芯3A体系结构的BLAS库优化[J].小型微型计算机系统,2012,33(3):571-575. 被引量：8
10刘会勇,李伟,赵青.基于DSP的混凝土泵排量测量装置设计[J].机械设计与制造,2012(1):38-40.

同被引文献8

1李恺,翁玉萍.基于龙芯2F的Glibc库优化[J].电子技术（上海）,2010(10):27-29. 被引量：2
2齐广玉,张功萱.超标量、超流水处理机的性能分析[J].小型微型计算机系统,1996,17(9):25-30. 被引量：2
3黄德天,陈建华.DSP图像处理的程序优化[J].中国光学与应用光学,2009,2(5):452-459. 被引量：12
4雷涛,曹晓伟,吴钦章.实时DSP图像处理空间低通滤波模块优化[J].光电工程,2012,39(5):116-120. 被引量：3
5雷涛,周进,吴钦章.DSP实时图像处理软件优化方法研究[J].计算机工程,2012,38(14):177-180. 被引量：7
6金龙,王洪元,张继,虞祖耀.实时DSP图像处理高斯滤波优化[J].制造业自动化,2014,36(24):63-66. 被引量：3
7洪一,方体莲,赵斌,郭二辉,刘小明,耿锐.“魂芯一号”数字信号处理器及其应用[J].中国科学：信息科学,2015,45(4):574-586. 被引量：12
8王向前,郑启龙,洪一.分簇结构模调度框架研究[J].中国科学技术大学学报,2016,46(2):104-112. 被引量：3

引证文献2

1张仁高,郑启龙,王向前.基于BWDSP的字符串与内存处理函数优化[J].计算机系统应用,2017,26(7):167-172.
2郑晓松,顾乃杰,叶鸿.面向高性能DSP的图像滤波库优化[J].计算机系统应用,2017,26(12):124-129. 被引量：2

二级引证文献2

1聂佩晗,缪慧敏,张雅婷,陈勇.线激光三维测量装置研制[J].林业机械与木工设备,2021,49(8):36-40. 被引量：2
2廖晓群,王佳仪,苏涛,李敏,张美春.HXDSP上双精度矩阵向量乘运算的实现与优化[J].计算机技术与发展,2021,31(11):101-107.

1电子百科[J].世界电子元器件,2014(3):43-43.
2林传文,顾乃杰,雷一鸣,洪一.分簇VLIW DSP的SIMD编译优化[J].中国科学技术大学学报,2011,41(8):708-714. 被引量：3
3邹庆华,邵瑞.基于FPGA的视频图像处理系统研究[J].信息通信,2016,29(11):78-79. 被引量：5
4钟诚,苏德富.多处理器上(m,n)选择问题的一个并行算法[J].广西大学学报（自然科学版）,1991,16(1):61-64.
5王大勇.体验联想超线程[J].中小学电教（综合）,2003(1):79-79.
6沈勤华.可扩展的自动并行化编译系统[J].计算机工程,2009,35(8):94-96.
7Tensilica发布第三代ConnX 545CK 8-MAC VLIW DSP内核[J].电子与电脑,2010(5):87-87.
8邵贝贝.浅谈μC/OS任务调度算法的硬件实现[J].单片机与嵌入式系统应用,2010,10(9):5-7. 被引量：9
9余成龙,王永文.SIMD非对齐访存结构设计与实现[J].计算机工程,2016,42(9):1-4. 被引量：3
10张延军,何虎,沈钲,孙义和.ASIP Approach for Multimedia Applications Based on a Scalable VLIW DSP Architecture[J].Tsinghua Science and Technology,2009,14(1):126-132. 被引量：3

计算机工程

2016年第3期

浏览历史

内容加载中请稍等...

数字信号变换函数在多簇VLIW DSP上的优化被引量：2

参考文献16

二级参考文献23

共引文献19

同被引文献8

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

数字信号变换函数在多簇VLIW DSP上的优化 被引量：2

参考文献16

二级参考文献23

共引文献19

同被引文献8

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

数字信号变换函数在多簇VLIW DSP上的优化被引量：2