期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
一种SIMD优化中的向量寄存器部分重用方法 被引量:3
1
作者 钱兴隆 臧斌宇 朱传琪 《计算机工程与科学》 CSCD 2007年第5期141-146,共6页
SIMD架构用于多媒体加速,已经广泛应用于现代通用处理器中。SIMD架构的数据并行性可大大提高处理器的运算能力,但由于存储系统的速度远远不能与其匹配,使得应用程序的性能很难获得进一步的提高。因此,本文基于SIMD架构的访存特性,提出... SIMD架构用于多媒体加速,已经广泛应用于现代通用处理器中。SIMD架构的数据并行性可大大提高处理器的运算能力,但由于存储系统的速度远远不能与其匹配,使得应用程序的性能很难获得进一步的提高。因此,本文基于SIMD架构的访存特性,提出了一种向量寄存器部分重用的方法,以提高访存效率;并给出了相应的程序转换算法,通过数据相关性的分析,在应用程序向量化时,生成采用向量寄存器部分重用的优化代码。实验结果说明,该算法对多媒体应用程序的性能有显著的提高。 展开更多
关键词 simd优化 向量寄存器 部分重用 数据相关性
下载PDF
基于ARMv8平台的多维FFT实现与优化研究 被引量:10
2
作者 陈暾 李志豪 +1 位作者 贾海鹏 张云泉 《计算机学报》 EI CSCD 北大核心 2019年第11期2384-2402,共19页
FFT(快速傅里叶变换)是用于计算离散傅里叶变换(DFT)或其逆运算的快速算法,它广泛应用于工程、科学和数学计算.到目前为止,鲜有基于ARM平台的高性能FFT算法的实现和优化,然而,随着ARMv8处理器应用的日益广泛,研究FFT算法在ARM平台上高... FFT(快速傅里叶变换)是用于计算离散傅里叶变换(DFT)或其逆运算的快速算法,它广泛应用于工程、科学和数学计算.到目前为止,鲜有基于ARM平台的高性能FFT算法的实现和优化,然而,随着ARMv8处理器应用的日益广泛,研究FFT算法在ARM平台上高性能实现日益重要.该文在ARMv8平台上实现和优化了一个高性能的多维FFT算法库:PerfFFT,通过FFT蝶形网络优化、蝶形计算优化、蝶形自动生成、SIMD优化、内存对齐、cache-aware的分块算法和高效转置等优化方法的应用,显著提升了FFT算法的性能.实验结果表明,PerfFFT相比目前应用最为广泛的开源FFT库FFTW实现了10%~591%的性能提升,而相比ARM高性能商业库ARM Performance Library实现了13%~44%的性能提升. 展开更多
关键词 ARMv8 FFT算法 FFTW ARMPL simd优化 CACHE优化 矩阵分块
下载PDF
Cooley-Tukey FFT算法高性能实现与优化研究 被引量:4
3
作者 郭金鑫 张广婷 +2 位作者 张云泉 陈泽华 贾海鹏 《计算机科学与探索》 CSCD 北大核心 2022年第6期1304-1315,共12页
快速傅里叶变换(FFT)算法是处理器基础软件生态的重要组成部分,在工程、科学、物理和数学等领域的应用十分广泛,且这些领域对FFT算法的性能也提出了越来越高的要求。研究FFT算法在ARMv8和X86-64上的高性能实现特别是大基高性能的实现,提... 快速傅里叶变换(FFT)算法是处理器基础软件生态的重要组成部分,在工程、科学、物理和数学等领域的应用十分广泛,且这些领域对FFT算法的性能也提出了越来越高的要求。研究FFT算法在ARMv8和X86-64上的高性能实现特别是大基高性能的实现,提高FFT算法的计算性能日益重要。针对ARMv8和X86-64计算平台的架构特征,研究FFT算法的高性能实现和优化方法。通过蝶形网络优化、大基网络级数降低、大基蝶形计算优化、SIMD汇编优化以及寄存器使用策略优化等方法的应用,有效提升了FFT算法的性能,特别是提升了FFT大基的计算性能,解决了寄存器不够用的性能瓶颈,并最终总结了一套Cooley-Tukey FFT算法的高性能实现策略和优化方案。实验结果表明,在ARM、X86-64处理器上,实现的FFT算法,较ARMPL、Intel MKL和FFTW性能有明显提升,较中小基性能也有明显提升。 展开更多
关键词 快速傅里叶变换(FFT) ARMv8 X86-64 FFTW simd优化
下载PDF
基于异或的隐私保护码优化研究
4
作者 金星彤 李鹏 +2 位作者 王刚 刘晓光 李忠伟 《计算机科学》 CSCD 北大核心 2017年第6期36-42,共7页
随着存储系统的发展,为了满足当前高速增长的信息数据量对存储的需求,云存储行业迅速兴起。然而,单云存储面临着数据保密性、安全性、可用性和厂商锁定的风险。基于异或的非系统纠删码-隐私保护码(PPC)可以用来构造具有隐私保护能力的... 随着存储系统的发展,为了满足当前高速增长的信息数据量对存储的需求,云存储行业迅速兴起。然而,单云存储面临着数据保密性、安全性、可用性和厂商锁定的风险。基于异或的非系统纠删码-隐私保护码(PPC)可以用来构造具有隐私保护能力的多云存储系统,从而在很大程度上解决上述问题。主要针对PPC编码算法进行优化,以提高编码运行性能。通过设计搜索PPC的最优调度来减少编码过程中的异或次数。由于PPC的编码/解码计算可以表示为生成矩阵(0/1矩阵)和数据向量的乘法,直观上计算量与生成矩阵中1的数目成正比,因此通过对计算次序的优化调度可以获得更好的性能。首先,设计并实现搜索PPC最优调度次序的算法,利用此算法寻找计算性能最优者,可优化具有隐私保护能力的多云存储系统的性能。其次,在基于最优调度次序的编码算法的基础上,利用AVX2技术的SIMD并行优化来提高编码过程中的每次异或的性能。实验表明,基于最优调度的编码性能提高了34.8%,进行SIMD并行优化后进一步提高了107.1%。 展开更多
关键词 隐私保护码 编码优化 simd优化 数据安全 纠删码 非系统码
下载PDF
RISC-V向量指令集的Yolov3移植优化 被引量:1
5
作者 王宇木 潘志铭 +4 位作者 吴鹏飞 付维 田乐兰 李桂润 孙轶群 《单片机与嵌入式系统应用》 2021年第12期20-25,30,共7页
为研究SIMD在嵌入式领域中对处理器性能的提升效果,选择一种并行化程度较高的图像处理算法Yolov3进行SIMD向量化移植。根据开源指令集RISC-V扩展指令集中的V(Vector)指令集修改Yolov3算法的代码,将其部署到优矽科技自研的WH64处理器的VP... 为研究SIMD在嵌入式领域中对处理器性能的提升效果,选择一种并行化程度较高的图像处理算法Yolov3进行SIMD向量化移植。根据开源指令集RISC-V扩展指令集中的V(Vector)指令集修改Yolov3算法的代码,将其部署到优矽科技自研的WH64处理器的VPU(Vector Processor Unit)中验证;结合Amdahl定律和Yolov3自测程序评估SIMD算法提升的性能。实验结果表明,在Xilinx的Kintex7板上以50 MHz主频运行,在向量化算法占比90%以上时,SIMD处理过后的代码程序达到了标量计算2.25x的加速比。 展开更多
关键词 simd优化 Yolov3算法移植 RISC-V向量指令集 AMDAHL定律 WH64处理器
下载PDF
一种偶数基Cooley-Tukey FFT高性能实现方法 被引量:9
6
作者 龚彤艳 张广婷 +1 位作者 贾海鹏 袁良 《计算机科学》 CSCD 北大核心 2020年第1期31-39,共9页
快速傅里叶变换(Fast Fourier Transform,FFT)是最重要的基础算法之一,在科学计算、信号处理、图像处理等领域都有着广泛的应用。随着这些应用领域对实时性需求的进一步提高,FFT算法面临着越来越高的性能要求。在现有的FFT算法库中,FFT... 快速傅里叶变换(Fast Fourier Transform,FFT)是最重要的基础算法之一,在科学计算、信号处理、图像处理等领域都有着广泛的应用。随着这些应用领域对实时性需求的进一步提高,FFT算法面临着越来越高的性能要求。在现有的FFT算法库中,FFT算法的求解速度和计算精度受到一定程度的限制,而且也少有研究者对偶数基Cooley-Tukey FFT的高性能实现提出相应的优化策略并对技术进行深入研究。基于此,文中提出了一套针对偶数基的Cooley-Tukey FFT的优化策略和方法。首先构建一个SIMD(Single Instruction Multiple Data)友好、支持混合基的蝶形网络,然后根据偶数基旋转因子特性最大限度地降低蝶形计算的复杂度,接着通过SIMD汇编优化、汇编指令重排及选择、寄存器分配策略制定、高性能矩阵转置算法等方法来优化应用,最后实现一个高性能的FFT算法库。目前,最流行、应用最广的FFT有FFTW和Intel MKL。实验结果表明,在X86计算平台上,新提出的这套针对偶数基Cooley-Tukey FFT的技术所实现的FFT算法库的性能全面优于MKL和FFTW。所提出的这套高性能算法优化和实现技术体系,可推广到除偶数基以外的其他基的实现和优化上,为进一步的研究开发工作奠定一定的基础,进而突破FFT算法在硬件平台上的性能瓶颈,实现一套针对特定平台的高性能FFT算法库。 展开更多
关键词 快速傅里叶变换算法 偶数基 蝶形计算优化 蝶形网络优化 simd汇编优化 高性能FFT库
下载PDF
基于ARM SVE的FFT算法向量化研究 被引量:3
7
作者 李凤娇 顾乃杰 +1 位作者 齐东升 苏俊杰 《小型微型计算机系统》 CSCD 北大核心 2022年第10期2017-2021,共5页
快速傅里叶变换(Fast Fourier Transform,FFT)是信号处理、图像处理等领域的重要研究工具.可伸缩向量扩展(Scalable Vector Extension,SVE)是ARM处理器推出的基于ARMv8-A体系架构的新一代SIMD指令集,支持位宽为128位-2048位的向量寄存... 快速傅里叶变换(Fast Fourier Transform,FFT)是信号处理、图像处理等领域的重要研究工具.可伸缩向量扩展(Scalable Vector Extension,SVE)是ARM处理器推出的基于ARMv8-A体系架构的新一代SIMD指令集,支持位宽为128位-2048位的向量寄存器和向量长度无关(Vector Length Agnostic,VLA)编程模型,具有很好的数据并行性和软件可移植性,适用于高性能计算、机器学习等领域.目前基于ARM SVE的FFT算法的研究尚未充分挖掘其架构特性和计算资源,本文针对数据规模为2的幂次的一维复数FFT,结合SVE谓词驱动的循环控制、非线性访存、复数运算等特性对算法做出了改进.实验结果表明,与FFTW库基于NEON的向量化实现相比,本算法性能有明显提升,在向量长度为1024位时,平均性能提升5.83倍,最高性能提升9.22倍. 展开更多
关键词 FFT ARM SVE simd汇编优化 软件性能优化
下载PDF
基于Intel MIC协处理器的PIC粒子模拟并行化加速及与CPU/GPU对比研究
8
作者 罗跃剑 陈哲 +3 位作者 唐荣欣 刘志伟 钟志宏 周猛 《中国科技论文》 CAS 北大核心 2018年第8期961-966,共6页
基于Intel Many-Integerated-Core(MIC)协处理器平台实现了二维particle-in-cell(PIC)粒子模拟,并根据MIC的特性进行了指令集层面上的向量化优化。为体现MIC平台下的并行加速效果,采用英伟达的GPU计算卡和英特尔Ivy-Bridge架构CPU处理... 基于Intel Many-Integerated-Core(MIC)协处理器平台实现了二维particle-in-cell(PIC)粒子模拟,并根据MIC的特性进行了指令集层面上的向量化优化。为体现MIC平台下的并行加速效果,采用英伟达的GPU计算卡和英特尔Ivy-Bridge架构CPU处理器进行针对性模拟,对3者的计算性能进行比较,当PIC模拟网格较小时,GPU架构具有更好的适用性和计算加速;随着模拟网格逐渐增大,MIC平台的计算加速比逐渐超过GPU平台。研究表明,针对PIC模拟应用,MIC平台具有良好的计算性能、较好的可扩展性和可编程性,利用MIC异构众核对大数据量并行计算程序优化将极大地促进高性能计算的应用和发展。 展开更多
关键词 PIC等离子体模拟 MIC异构并行计算 simd指令集向量化优化
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部