基于嵌入式移动GPU的离散傅里叶变换并行优化被引量：2

Parallelization of DFT Based on Embedded Mobile GPU

下载PDF

导出

摘要 GPGPU能够针对计算密集型的计算问题进行大规模的并行加速,为DFT在嵌入式平台上的高效实现提供了一种新的方式。基于Mali-T604嵌入式GPU实现了针对DFT和FFT的并行加速方案,并进行了实际测试。实验结果证明,所设计的并行方案能够在ARM嵌入式平台上有效加速DFT和FFT,可大大提升移动设备进行数字信号处理的实时性。 GPGPU can provide efficient parallel computing solution for the complex compute-intensive computing problem, which is a new way of the efficient implementation of DFT in the embedded platform. In the paper, the parallelization solution of DFT and FFT based on Mali-T604 GPU is proposed. The results of experiment show that the parallel scheme can effectively accelerate DFT and FFT on ARM embedded platform, which can greatly improve the real-time performance of digital signal processing.

作者曾宝国杨斌

机构地区成都工业职业技术学院西南交通大学

出处《单片机与嵌入式系统应用》 2016年第1期12-15,共4页 Microcontrollers & Embedded Systems

关键词 DFT FFT GPGPU Mali—T604 GPU 数字信号处理 ARM嵌入式系统 DFT FFT GPGPU Mali-T604 GPU digital signal processing ARM Embedded System

分类号 TP368.1 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1龚若皓,杨斌.基于移动多核GPU的并行二维DCT变换实现方法[J].成都信息工程学院学报,2015,30(1):22-26. 被引量：2
2向阳霞,张惠民,王子强.面向OpenCL模型的DCT并行化[J].电脑知识与技术（过刊）,2013,19(9X):6007-6011. 被引量：3
3陈钢,吴百锋.面向OpenCL模型的GPU性能优化[J].计算机辅助设计与图形学学报,2011,23(4):571-581. 被引量：21
4Owens J D, Houston M, Luebke D, et al. GPUComputing[J]. Proceedings of the IEEE,2008,96(5) :879 - 899.
5ARM Company. ARM Mali - T600 Series GPU OpenCL De- veloper Guide Version 2.0,2012.

二级参考文献37

1吴恩华,柳有权.基于图形处理器(GPU)的通用计算[J].计算机辅助设计与图形学学报,2004,16(5):601-612. 被引量：225
2()wens J D, Houston M, Luebke D, et al. GPU computing [J]. Proceedings of the IEEE, 2008, 96(5): 879-899.
3Owens J D, Luebke D, Govindaraju N, et al. A survey of general-purpose computation on graphics hardware [J]. Computer Graphics Forum, 2007, 26(1): 80-113.
4Fatahalian K, Houston M. GPUs:a closer look [J]. ACM Queue, 2008, 6(2): 18 28.
5Jang B, Mistry P, Sehaa D, et al. Data transformations enabling loop vectorization on multithreaded data parallel architectures [C] //Proceedings of the 15th ACM SIGPLAN Symposium on Principles ahd Practice of Parallel Programming. New York: ACM Press, 2010:353-354.
6Liu Y X, Zhang E Z, Shen X P. A cross-input adaptive framework for GPU program optimizations [C] //Proceedings of IEEE International Symposium on Parallel & Distributed Processing. Los Alamitos: IEEE Computer Society Press, 2009, 1-10.
7Ryoo S, Rodrigucs C I, Stone S S, et al. Program optimization space pruning for a multithreaded GPU [C]// Proceedings of the 6th Annual IEEE/ACM International Symposium on Code Generation and Optimization. New York: ACM Press, 2008:195-204.
8Ryoo S, Rodrigues C l, Stone S S, el al. Optimization principles and application performance evaluation of a multithreaded GPU using CUDA [C] //Proceedings of the 13th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming. New York: ACM Press, 2008:73-82.
9Jang 13, Do S, Pien H, etal. Architecture aware optimization targeting multithreaded stream computing[C] //Proceedings of the 2nd Workshop on General Purpose Processing onGraphics Processing Units, New York: ACM Press, 2009: 62-70.
10Baskaran M M, Bondhugu/a U, Krishnamoorthy S, et al. A compiler framework for optimization of affine loop nests for GPGPUs [C] //Proceedings of the 22nd Annual International Conference on Supercomputing. New York: ACM Press, 2008:225-234.

共引文献21

1詹云,赵新灿,谭同德.基于OpenCL的异构系统并行编程[J].计算机工程与设计,2012,33(11):4191-4195. 被引量：23
2蒋丽媛,张云泉,龙国平,贾海鹏.基于OpenCL的连续数据无关访存密集型函数并行与优化研究[J].计算机科学,2013,40(3):111-115. 被引量：1
3熊英,罗琼.基于OpenCL的NDVI算法的并行化实现[J].电脑开发与应用,2013,26(11):77-78. 被引量：2
4赵成龙,施慧彬,俞忻峰.基于OpenCL的双GPU基数排序算法[J].计算机与现代化,2015(1):27-30. 被引量：1
5龚若皓,杨斌.基于移动多核GPU的并行二维DCT变换实现方法[J].成都信息工程学院学报,2015,30(1):22-26. 被引量：2
6黎柏春,杨建宇,于天彪,王宛山.在GPU上实现基于高斯映射的通用刀具扫描体建模[J].计算机辅助设计与图形学学报,2015,27(7):1334-1340. 被引量：1
7唐玲,杜雨洺.一种基于多级Kalman滤波的高精度距离估计方法[J].成都信息工程学院学报,2015,30(2):131-135.
8汪方良,施慧彬.基于OpenCL的人脸识别与隐藏系统[J].计算机与现代化,2016(1):16-19. 被引量：1
9蔡勇,李胜.Matlab的图形处理器并行计算及其在拓扑优化中的应用[J].计算机应用,2016,36(3):628-632. 被引量：2
10许卫明,王建华.OpenCL离散元颗粒系统的优化设计[J].菏泽学院学报,2016,38(2):23-27.

同被引文献14

1解云虹,向阳,陈利菊.基于移动互联网的实时路况采集与发布系统方案[J].电子世界,2016,0(4):21-23. 被引量：4
2张志.基于单片机的嵌入式系统开发及实践要点研究论述[J].电脑知识与技术,2016,0(1):258-259. 被引量：7
3温宗周,豆朋达,钱佳佳,周冬.基于ZigBee的智能灌溉系统设计[J].单片机与嵌入式系统应用,2016,16(11):38-42. 被引量：8
4高虎,白金平,简兰懿.基于Android智能阳台系统设计与实现[J].自动化技术与应用,2016,35(11):22-25. 被引量：6
5郑创杰,刘芹.基于嵌入式Linux与单片机的WiFi监控小车[J].仲恺农业工程学院学报,2016,29(4):44-47. 被引量：2
6任海燕,王宇,耿爽,陈思羽.基于Arduino平台的停车场智能引导系统[J].单片机与嵌入式系统应用,2017,17(2):61-64. 被引量：1
7张鹏.移动智能终端信息防泄露模型的研究及应用[J].中国管理信息化,2017,20(1):179-180. 被引量：2
8钱广玉.基于嵌入式单片机的TCP/IP协议技术的研究与应用[J].数字技术与应用,2016,34(8):142-142. 被引量：5
9曹媛,李永全.嵌入式单片机系统在图像采集中的运用[J].电子世界,2017,0(9):187-187. 被引量：6
10马艳娜,唐华,柯红军.基于移动终端的遥感监测数据采集系统设计与实现[J].测绘与空间地理信息,2017,40(4):120-122. 被引量：10

引证文献2

1王湘新,时洋,文梅.CNN卷积计算在移动GPU上的加速研究[J].计算机工程与科学,2018,40(1):34-39. 被引量：5
2何竞松,彭光强,李清,武霁阳.基于嵌入式单片机的移动网络信息采集系统[J].电子设计工程,2018,26(23):182-185. 被引量：10

二级引证文献15

1邹超然.分析基于单片机的嵌入式多节点网络通信系统设计[J].科技创新与应用,2019,9(16):93-94. 被引量：4
2张烨,许艇,冯定忠,蒋美仙,吴光华.基于难分样本挖掘的快速区域卷积神经网络目标检测研究[J].电子与信息学报,2019,41(6):1496-1502. 被引量：11
3王璐,曹志强,李发亮,张淑云,叶新青.低压电力用户用电量远程自动采集系统设计[J].电子设计工程,2019,27(21):40-44. 被引量：7
4温锦辉.基于嵌入式技术的通用性仪器仪表平台化硬件系统设计[J].电子测试,2019,0(23):43-44. 被引量：5
5全美娟,陈庆奎.移动GPU上基于轻量级卷积神经网络的道路拥堵检测方法[J].小型微型计算机系统,2019,40(12):2667-2672. 被引量：2
6邓月明.基于单片机的电子设备抗瞬时干扰系统设计[J].自动化与仪器仪表,2020,0(2):105-108. 被引量：1
7杨成英,陈勇.基于运算放大器的Meter-Bus总线的主站接口电路的研究[J].电子设计工程,2020,28(3):138-143. 被引量：2
8陈刃,姜军.城市水环境监测信息多级分布式采集系统[J].西安工程大学学报,2020,34(3):81-86. 被引量：1
9邓军,叶楠,张效铭,张玺.基于ST的无线传感网络实验系统的设计[J].实验室科学,2020,23(4):66-69.
10闫机超.基于RFID技术的网络搜索引擎自适应优化[J].现代电子技术,2020,43(19):62-64. 被引量：2

1Mali-T604:ARM的亲儿子[J].电脑爱好者,2013(2):29-29.
2陆楠.处理、图形和控制ARM产品持续升级[J].电子设计技术 EDN CHINA,2011,18(2):53-53.
3ARM发布CORELINK 400系统IP释放高性能CPU和GPU系统潜力[J].电子与电脑,2010(12):91-91.
4龚若皓,杨斌.基于移动多核GPU的并行二维DCT变换实现方法[J].成都信息工程学院学报,2015,30(1):22-26. 被引量：2
5ARM推出新版AMBA 4规格优化异质多核心系统单芯片一致性[J].电子与电脑,2011(7):78-78.

单片机与嵌入式系统应用

2016年第1期

浏览历史

内容加载中请稍等...

基于嵌入式移动GPU的离散傅里叶变换并行优化被引量：2

参考文献5

二级参考文献37

共引文献21

同被引文献14

引证文献2

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于嵌入式移动GPU的离散傅里叶变换并行优化 被引量：2

参考文献5

二级参考文献37

共引文献21

同被引文献14

引证文献2

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于嵌入式移动GPU的离散傅里叶变换并行优化被引量：2