期刊文献+
共找到383篇文章
< 1 2 20 >
每页显示 20 50 100
基于申威SIMD指令的H.264编码优化
1
作者 黄朴 刘世巍 +1 位作者 张昊 王聪 《现代电子技术》 北大核心 2024年第6期49-54,共6页
国产化申威处理器出现较晚,其在多媒体领域中的性能还不突出,同时通用处理器中的单指令流多数据流(SIMD)因能有效提升并行处理能力而受到处理器厂商的青睐。为提高国产化自主平台申威架构的多媒体处理能力,结合申威架构Core3B体系的SIM... 国产化申威处理器出现较晚,其在多媒体领域中的性能还不突出,同时通用处理器中的单指令流多数据流(SIMD)因能有效提升并行处理能力而受到处理器厂商的青睐。为提高国产化自主平台申威架构的多媒体处理能力,结合申威架构Core3B体系的SIMD指令系统,提出一种基于申威架构的SIMD指令集H.264编码优化方法。结合申威处理器的并行结构特点,利用申威适配的Perf、Top指令等系统性能分析工具,采集两种主流视频分辨率下与编码性能强相关的高频热点函数,详细分析其程序并行化可行性,采用手工嵌入申威SIMD和访存扩展等汇编指令进行细粒度优化。实验结果表明,该方法在申威架构下的H.264平均编码性能提升了约30%。相应工作成果已推送到申威社区,增强了基于申威处理器的国产计算机在桌面多媒体应用领域的工作体验。 展开更多
关键词 单指令流多数据流 H.264标准 申威处理器 热点函数 程序并行化 细粒度
下载PDF
利用SIMD向量化的数据流软错误检测算法 被引量:1
2
作者 张磊 彭飞 +1 位作者 曹子宁 庄毅 《小型微型计算机系统》 CSCD 北大核心 2023年第5期1114-1120,共7页
由于现代处理器不断缩减芯片上元件尺寸、速度不断提高,会导致严重的可靠性问题.针对现有基于冗余的数据流软检错算法效率低下问题,本文提出一种基于SIMD向量化的数据流软错误检测算法VBSED,利用单指令多数据流并行性来提高软件冗余算... 由于现代处理器不断缩减芯片上元件尺寸、速度不断提高,会导致严重的可靠性问题.针对现有基于冗余的数据流软检错算法效率低下问题,本文提出一种基于SIMD向量化的数据流软错误检测算法VBSED,利用单指令多数据流并行性来提高软件冗余算法的效率,将原代码与冗余代码转换为高效率的SIMD代码,生成具有检错能力的加固程序.对比实验结果表明本文提出的算法可降低加固代码的时空开销,该算法还具有现有算法一般不能检测缓存等部件软错误的优点,并通过故障注入实验验证本文算法在寄存器、缓存和主存部件具有更高的错误检错率. 展开更多
关键词 simd 向量化 数据流 错误检测 故障注入
下载PDF
基于SIMD思想的SM4流水线优化设计 被引量:1
3
作者 陈昆明 王佳慧 +2 位作者 马利民 张伟 梁兆熙 《信息安全研究》 CSCD 2023年第9期832-842,共11页
SM4算法是我国商用密码标准,广泛应用于信息安全领域.由于SM4实现需要多次迭代和循环,所以SM4算法适合用硬件来实现.提出了一种基于ROM的并行S盒设计,面向SM4 ECB模式轮密钥更新的流水线结构,并且在此流水线基础上基于SIMD思想,对流水... SM4算法是我国商用密码标准,广泛应用于信息安全领域.由于SM4实现需要多次迭代和循环,所以SM4算法适合用硬件来实现.提出了一种基于ROM的并行S盒设计,面向SM4 ECB模式轮密钥更新的流水线结构,并且在此流水线基础上基于SIMD思想,对流水线结构进一步优化,减少了轮密钥生成的任务开销,实现了单轮密钥生成,多加解密数据流同时运算.提出的ROM流水线结构相比LUT流水线结构、BRAM流水线结构,降低了硬件资源使用,吞吐量分别提高了1.33倍和1.46倍;相比BRAM+寄存器流水线结构,节省了大量寄存器资源,而吞吐量没有明显下降.SIMD流水线结构当为1轮密钥生成4路加解密结构时,资源消耗仅为ROM流水线结构的2.5倍,效率提高了4倍. 展开更多
关键词 SM4算法 流水线结构 S盒设计 simd 轮密钥优化
下载PDF
基于SIMD指令集的SM2数字签名算法快速实现 被引量:1
4
作者 韦薇 罗敏 +2 位作者 白野 彭聪 何德彪 《密码学报》 CSCD 2023年第4期720-736,共17页
SM2数字签名算法是国家密码管理局发布的首个数字签名标准,已广泛应用于网上银行、电子政务等领域.本文提出一种基于高级矢量扩展指令集(advanced vector extension 512,AVX512)的SM2数字签名算法实现方案,有效提升了SM2数字签名算法的... SM2数字签名算法是国家密码管理局发布的首个数字签名标准,已广泛应用于网上银行、电子政务等领域.本文提出一种基于高级矢量扩展指令集(advanced vector extension 512,AVX512)的SM2数字签名算法实现方案,有效提升了SM2数字签名算法的性能.结合单指令多数据集(single instruction multiple data,SIMD)运算特性,设计了一种新的冗余基数表示形式与数据排列方式,利用3比特冗余空间减少进位传播的次数,构建高效的并行素域运算模块.进而提出一种可变基点标量乘法的并行优化算法,在算法分支加入虚拟操作,按需存储点加与倍点的计算结果,结合底层数据表示形式消除8路分支的差异性.利用AVX512指令与分步点加方法加速固定基点标量乘法.签名与验签算法的性能比最新的SIMD实现分别提升了196%和69%. 展开更多
关键词 SM2数字签名算法 simd指令集 AVX512 软件优化
下载PDF
SIMD自动向量化编译优化概述 被引量:30
5
作者 高伟 赵荣彩 +2 位作者 韩林 庞建民 丁锐 《软件学报》 EI CSCD 北大核心 2015年第6期1265-1284,共20页
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研... SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研究成果,最后展望了SIMD编译优化未来的研究方向. 展开更多
关键词 simd扩展部件 自动向量化 数据级并行 编译优化
下载PDF
SIMD技术与向量数学库研究 被引量:10
6
作者 解庆春 张云泉 +2 位作者 王可 李焱 许亚武 《计算机科学》 CSCD 北大核心 2011年第7期298-301,共4页
首先,结合Intel,AMD和IBM处理器,介绍了单指令流多数据流(SIMD)向量化技术及其各自的特点。其次,在3种平台上对各自开发的函数库中的部分向量数学函数进行了测试。结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell ... 首先,结合Intel,AMD和IBM处理器,介绍了单指令流多数据流(SIMD)向量化技术及其各自的特点。其次,在3种平台上对各自开发的函数库中的部分向量数学函数进行了测试。结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell SDK函数,因其独特的体系结构,多个向量处理单元带来的平均加速比为10。最后,通过测试结果的对比,发现不同数学库中的向量函数之间在性能方面也存在着差异,并对差异原因进行了分析,得出性能差异主要是处理器架构和向量计算单元个数和访存等因素造成的。 展开更多
关键词 向量化 SSE MMX 3DNow! simd
下载PDF
向量并行度指导的循环SIMD向量化方法 被引量:5
7
作者 高伟 韩林 +2 位作者 赵荣彩 徐金龙 陈超然 《软件学报》 EI CSCD 北大核心 2017年第4期925-939,共15页
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等领域程序的数据级并行.当前,两种基本的向量发掘方法分别是发掘迭代间并行的Loop-based方法和发掘迭代内并行的SLP方法.Loopaware方法是对SLP方法的改进,其思想... SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等领域程序的数据级并行.当前,两种基本的向量发掘方法分别是发掘迭代间并行的Loop-based方法和发掘迭代内并行的SLP方法.Loopaware方法是对SLP方法的改进,其思想是:首先,通过循环展开将迭代间并行转换为迭代内并行,使循环体内的同构语句条数足够多;再利用SLP方法进行向量发掘.但当循环展开不合法或者并行度低于向量化因子时,Loop-aware方法无法实现程序向量并行性的发掘.因此提出了向量并行度指导的循环向量化方法,依据迭代间并行度、迭代内并行度和向量化因子构建循环向量化方法选择方案,同时提出了不充分向量化方法发掘并行度低于向量化因子的循环向量并行性,最后,依据向量并行度对生成的向量循环进行展开.经过标准测试集测试,向量并行度指导的循环SIMD向量化方法比Loop-aware方法的识别率提升了107.5%,性能提升了12.1%. 展开更多
关键词 simd扩展部件 向量并行度 Loop-aware 循环展开
下载PDF
龙芯3B的SIMD编译优化及分析 被引量:9
8
作者 彭飞 顾乃杰 +1 位作者 高翔 孙明明 《小型微型计算机系统》 CSCD 北大核心 2012年第12期2733-2737,共5页
根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了B... 根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了Builtin函数的支持,用户可以根据标准函数接口调用SIMD运算函数,完成向量操作.通过对SPEC-CPU2000、DSPstone等大量benchmark的测试和分析,给出了龙芯3B SIMD运算的各项性能指数.对于性能表现不同的测试函数,均给出了详细分析数据和结论.测试表明,龙芯3B的SIMD运算在实际应用中有着良好的性能表现. 展开更多
关键词 编译优化 simd 自动向量化 Builtin 龙芯3B
下载PDF
基于Intel SIMD指令的二维FFT优化算法 被引量:11
9
作者 李成军 周卫峰 朱重光 《计算机工程与应用》 CSCD 北大核心 2007年第5期41-44,共4页
在基于频域的大数据量图像处理算法中,最为耗时的步骤就是对图像数据进行二维FFT变换的过程。论文针对这一问题,提出一种基于Intel SIMD指令的二维FFT优化算法。通过将数据按照便于SIMD指令计算的方式进行组织,利用SSE3指令加速复数乘法... 在基于频域的大数据量图像处理算法中,最为耗时的步骤就是对图像数据进行二维FFT变换的过程。论文针对这一问题,提出一种基于Intel SIMD指令的二维FFT优化算法。通过将数据按照便于SIMD指令计算的方式进行组织,利用SSE3指令加速复数乘法,在二维处理中针对处理器缓存进行优化等方法,实现了很高的性能。实验结果表明:描述的算法比目前使用最广泛的公共域FFT程序包FFTW快30%左右。达到了对大数据量图像进行快速处理的要求,具有较大的工程实用价值。 展开更多
关键词 大数据量图像处理 二维FFT simd SSE/SSE3
下载PDF
基于SIMD技术的锥束ART算法快速并行图像重建 被引量:6
10
作者 张顺利 张定华 +1 位作者 李明君 吉军 《仪器仪表学报》 EI CAS CSCD 北大核心 2010年第3期630-634,共5页
ART(algebraic reconstruction technique)算法是一种迭代图像重建方法,适合于大型工业构件的无损检测,其缺点是计算量大、重建时间长。为了提高锥束ART算法的重建速度,本文提出一种快速并行图像重建方法。首先根据锥束CT扫描方式下三... ART(algebraic reconstruction technique)算法是一种迭代图像重建方法,适合于大型工业构件的无损检测,其缺点是计算量大、重建时间长。为了提高锥束ART算法的重建速度,本文提出一种快速并行图像重建方法。首先根据锥束CT扫描方式下三维射线的对称性提出一种权因子和体素索引的并行计算方法,通过一次计算可同时得到两条射线的权因子和体素索引;然后采用Intel处理器的单指令多数据(single instruction multiple data,SIMD)技术,一次性加载多个打包数据,利用SSE(streamingSIMD extension)指令实现了投影、计算图像校正和反投影的并行运算。实验结果表明本文提出的方法非常有效,在保证图像重建精度的同时取得了约1.5倍的重建加速比。 展开更多
关键词 锥束CT 图像重建 ART算法 simd技术
下载PDF
一种基于SIMD技术的快速并行代数重建算法 被引量:8
11
作者 刘远 张定华 +2 位作者 赵歆波 毛海鹏 刘晓鹏 《中国图象图形学报》 CSCD 北大核心 2007年第1期73-77,共5页
代数重建算法是解决非完全投影数据重建的有效方法,尤其在对于超出探测器尺寸范围的大型零件的无损检测中已成为最有力的关键技术,但以往算法计算量较大、耗时较长。为了快速地进行代数重建,提出了一种基于Intel处理器单指令多数据(sing... 代数重建算法是解决非完全投影数据重建的有效方法,尤其在对于超出探测器尺寸范围的大型零件的无损检测中已成为最有力的关键技术,但以往算法计算量较大、耗时较长。为了快速地进行代数重建,提出了一种基于Intel处理器单指令多数据(single instruction multiple data,SIMD)技术[2]的快速并行算法,并在充分分析代数重建公式特点的基础上,设计了一套便于并行化运算的数据结构及计算流程,其在运算中可一次性加载多个打包数据,利用MMX(multimedia extension)、SSE(streaming SIMD extension)和SSE2指令完成SIMD方式计算。通过仿真实验证明,该算法在达到同样精度的前提下,不仅提高了重建速度(加速比4倍),解决了传统代数重建算法运算速度慢的瓶颈问题,并且能够较好地重建部分数据缺失的投影图像,该算法对于航空航天大型零部件的无损检测具有重要的理论意义及工程应用价值。 展开更多
关键词 CT 代数重建 单指令多数据并行运算 SSE和SSE2指令
下载PDF
基于SIMD技术的图像卷积处理器体系结构研究 被引量:5
12
作者 佟凤辉 樊晓桠 +1 位作者 王党辉 辛明瑞 《微电子学与计算机》 CSCD 北大核心 2003年第3期13-16,20,共5页
SIMD处理机特别适合于要求大量高速向量或矩阵计算的场合,数据缓存系统和对准网络是它的关键部件。而图像卷积是图像处理技术中最基本也是最重要的一项技术,文章根据数字图像的卷积定理对数字图像的卷积运算进行了分析,在此基础上提出... SIMD处理机特别适合于要求大量高速向量或矩阵计算的场合,数据缓存系统和对准网络是它的关键部件。而图像卷积是图像处理技术中最基本也是最重要的一项技术,文章根据数字图像的卷积定理对数字图像的卷积运算进行了分析,在此基础上提出了一种基于SIMD处理机的可变卷积模板的图像卷积处理器的体系结构。该处理器内部包含有接口部件、控制部件、数据缓存系统、对准电路和执行部件等。它的极高效率的数据缓存系统和对准电路成为该处理器最有特色的部分,它从根本上解决了图像卷积中的数据复用带来的CPU重复访问主存储器的问题。实现了3×3、5×5、7×7、9×9、11×11、13×13和15×15卷积模板的图像卷积运算的变换而无需另行更改硬件电路的特点。最后,对这个图像卷积处理器体系结构的性能进行了缜密的分析。 展开更多
关键词 simd技术 图像卷积处理器 体系结构 图像处理 计算机 simd处理机 数据缓存系统 对准电路
下载PDF
面向非多媒体程序的SIMD向量化算法的研究及改进 被引量:6
13
作者 李玉祥 施慧 陈莉 《小型微型计算机系统》 CSCD 北大核心 2009年第10期1927-1935,共9页
利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段,然而目前几乎所有的商业编译器对非多媒体程序的向量化的结果,都无法说明其编译器有效的向量能力.本文通过分析典型的非多媒体程序--SPECCPU2000浮点... 利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段,然而目前几乎所有的商业编译器对非多媒体程序的向量化的结果,都无法说明其编译器有效的向量能力.本文通过分析典型的非多媒体程序--SPECCPU2000浮点程序,归纳出非多媒体程序的SIMD向量化特征,并依此提出局部数据重组的向量化方法、针对外层循环的向量化方法、部分语句SLP的向量化方法几种新的向量化方法和相关的向量化优化技术.通过对比Intel编译器对SPECCPU2000的向量化性能测试,可以发现本文提出的改进方法有效的提高了程序的向量化. 展开更多
关键词 向量化 数据重组 simd 外层循环的向量化
下载PDF
一种高效的面向基2 FFT算法的SIMD并行存储结构 被引量:4
14
作者 陈海燕 杨超 +1 位作者 刘胜 刘仲 《电子学报》 EI CAS CSCD 北大核心 2016年第2期241-246,共6页
随着SIMD(Single Instruction Multiple Data stream)结构DSP(Digital Signal Processor)片上集成了越来越多的处理单元,并行访存的灵活性及带宽效率对实际运算性能的影响越来越大.本文详细分析了一般SIMD结构DSP中基2 FFT(Fast Fo... 随着SIMD(Single Instruction Multiple Data stream)结构DSP(Digital Signal Processor)片上集成了越来越多的处理单元,并行访存的灵活性及带宽效率对实际运算性能的影响越来越大.本文详细分析了一般SIMD结构DSP中基2 FFT(Fast Fourier Transform)并行算法面临的访存问题,采用简单的部分地址异或逻辑完成SIMD并行访存地址转换,实现了FFT运算的无冲突SIMD并行访存;提出了几种带特殊混洗模式的向量访存指令,可完全消除SIMD结构下基2FFT运算时需要的额外混洗指令操作.最后将其应用于某16路SIMD数字信号处理器YHFT-Matrix2中向量存储器VM的优化设计.测试结果表明,采用该SIMD并行存储结构优化的VM以增加18%的硬件开销实现了FFT运算全流水无冲突并行访存和100%并行访存带宽利用率;相比优化前的设计,不同点数FFT运算可获得1.32~2.66的加速比. 展开更多
关键词 快速傅里叶变换 单指令多数据流 低位交叉 并行存储 访问冲突 数据混洗
下载PDF
x86处理器向量条件访存指令安全脆弱性分析
15
作者 李丹萍 朱子元 +1 位作者 史岗 孟丹 《计算机学报》 EI CAS CSCD 北大核心 2024年第3期525-543,共19页
单指令多数据流(Single Instruction stream,Multiple Data streams,SIMD)是一种利用数据级并行提高处理器性能的技术,旨在利用多个处理器并行执行同一条指令增加数据处理的吞吐量.随着大数据、人工智能等技术的兴起,人们对数据并行化... 单指令多数据流(Single Instruction stream,Multiple Data streams,SIMD)是一种利用数据级并行提高处理器性能的技术,旨在利用多个处理器并行执行同一条指令增加数据处理的吞吐量.随着大数据、人工智能等技术的兴起,人们对数据并行化处理的需求不断提高,这使得SIMD技术愈发重要.为了支持SIMD技术,Intel和AMD等x86处理器厂商从1996年开始在其处理器中陆续引入了MMX(MultiMedia Extensions)、SSE(Streaming SIMD Extensions)、AVX(Advanced Vector eXtensions)等SIMD指令集扩展.通过调用SIMD指令,程序员能够无需理解SIMD技术的硬件层实现细节就方便地使用它的功能.然而,随着熔断、幽灵等处理器硬件漏洞的发现,人们逐渐认识到并行优化技术是一柄双刃剑,它在提高性能的同时也能带来安全风险.本文聚焦于x86 SIMD指令集扩展中的VMASKMOV指令,对它的安全脆弱性进行了分析.本文的主要贡献如下:(1)利用时间戳计数器等技术对VMASKMOV指令进行了微架构逆向工程,首次发现VMASKMOV指令与内存页管理和CPU Fill Buffer等安全风险的相关性;(2)披露了一个新的处理器漏洞EvilMask,它广泛存在于Intel和AMD处理器上,并提出了3个EvilMask攻击原语:VMASKMOVL+Time(MAP)、VMASKMOVS+Time(XD)和VMASKMOVL+MDS,可用于实施去地址空间布局随机化攻击和进程数据窃取攻击;(3)给出了2个EvilMask概念验证示例(Proof-of-Concept,PoC)验证了EvilMask对真实世界的信息安全危害;(4)讨论了针对EvilMask的防御方案,指出最根本的解决方法是在硬件层面上重新实现VMASKMOV指令,并给出了初步的实现方案. 展开更多
关键词 处理器安全 单指令多数据流(simd) 微体系结构侧信道攻击 VMASKMOV指令 地址空间布局随机化(ASLR)
下载PDF
一种改进的控制流SIMD向量化方法 被引量:3
16
作者 高伟 李颖颖 +2 位作者 孙回回 李雁冰 赵荣彩 《软件学报》 EI CSCD 北大核心 2017年第8期2046-2063,共18页
SIMD扩展部件是近年来集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等程序的数据级并行.控制依赖给发掘程序中的数据级并行带来了阻碍,当前,无论基于loop-based还是SLP的控制流向量化方法都需要if转换,而没有考虑循环内蕴含... SIMD扩展部件是近年来集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等程序的数据级并行.控制依赖给发掘程序中的数据级并行带来了阻碍,当前,无论基于loop-based还是SLP的控制流向量化方法都需要if转换,而没有考虑循环内蕴含的向量并行度,导致生成的向量代码效率较低.此外,不精确的代价模型指导控制流向量化,同样导致生成的向量代码效率较低.为此,提出了改进的控制流SIMD向量化方法.首先,提出了含有控制依赖的循环分布算法,分离循环的可向量化部分和不可向量化部分,同时考虑分布时数据的局部性;其次,提出了一种直接向量化控制流的方法,该方法考虑了基本块间的向量重用;最后,利用精确的代价模型指导超字选择指令和超字条件分支指令的生成.实验结果表明:与现有的控制流向量化方法相比,改进方法生成的向量代码性能提高了24%. 展开更多
关键词 simd扩展部件 控制依赖 数据依赖 循环分布
下载PDF
分簇VLIW DSP的SIMD编译优化 被引量:3
17
作者 林传文 顾乃杰 +1 位作者 雷一鸣 洪一 《中国科学技术大学学报》 CAS CSCD 北大核心 2011年第8期708-714,共7页
针对数字信号处理的应用特点,提出了一种识别SIMD指令的一般性方法;针对分簇结构SIMD指令的特点,给出了新的指令分簇算法和寄存器分配算法;最后在BWDSP100芯片的编译器上实现这些优化方法.实验结果表明,上述优化方法能充分发挥分簇结构S... 针对数字信号处理的应用特点,提出了一种识别SIMD指令的一般性方法;针对分簇结构SIMD指令的特点,给出了新的指令分簇算法和寄存器分配算法;最后在BWDSP100芯片的编译器上实现这些优化方法.实验结果表明,上述优化方法能充分发挥分簇结构SIMD指令的优势,提高编译器的效率. 展开更多
关键词 超长指令字 分簇结构 单指令流多数据流 编译优化
下载PDF
Flex-DMA:支持多模式高效传输的DMA系统设计
18
作者 李德建 冯曦 +4 位作者 王国旋 谭浪 沈冲飞 范志华 李文明 《微电子学与计算机》 2024年第6期103-114,共12页
随着数据密集型科学和高通量应用的迅速发展,专用集成电路设计不断涌现,传输系统不再只有数据传输的需求。现有的一些直接存储器访问(Data Memory Access,DMA)设计可以支持高效的矩阵转置传输,但这些设计不能满足复杂的访存模式,也不具... 随着数据密集型科学和高通量应用的迅速发展,专用集成电路设计不断涌现,传输系统不再只有数据传输的需求。现有的一些直接存储器访问(Data Memory Access,DMA)设计可以支持高效的矩阵转置传输,但这些设计不能满足复杂的访存模式,也不具有灵活的可配置性,从而降低计算效率。针对这些问题设计了一种可配置的多模式传输系统Flex-DMA,该系统包含可配置的寄存器以及传输通道,拥有基础模式和单指令多数据(Single Instruction Multiple Data,SIMD)模式。因此,Flex-DMA可根据不同的数据传输需求选择不同的传输模式,灵活配置数据规模和数据格式,支持数据向量化转换、矩阵转置传输等功能。在大规模并行模拟框架中对Flex-DMA做性能评估,其结果表明,Flex-DMA在数据向量化处理中可以获得平均5.14倍的加速比。此外,与MT-DMA结构相比,Flex-DMA在矩阵转置传输中可以获得平均2.52倍性能提升。实验证明:Flex-DMA能满足复杂的访存模式和传输需求,在低传输时延下实现数据的重组和预处理。 展开更多
关键词 直接存储器访问 simd模式 数据传输 矩阵转置 预处理
下载PDF
一种改进的嵌入式SIMD协处理器设计 被引量:3
19
作者 周国昌 王忠 +1 位作者 车德亮 冯国臣 《计算机工程与应用》 CSCD 北大核心 2004年第31期13-16,共4页
论文介绍的SIMD协处理器是用于低层图像理解的16位定点嵌入式阵列处理器。该协处理器采用load/store体系结构,并且除SIMD固有的数据并行性外,还具有三级流水和三组指令并发执行的并行性。三组指令并发执行使数据交换操作和其它类型操作... 论文介绍的SIMD协处理器是用于低层图像理解的16位定点嵌入式阵列处理器。该协处理器采用load/store体系结构,并且除SIMD固有的数据并行性外,还具有三级流水和三组指令并发执行的并行性。三组指令并发执行使数据交换操作和其它类型操作并发执行,从而实现了数据交换操作的隐含执行,大大减少了通信和I/O操作的开销。 展开更多
关键词 simd阵列协处理器 load/store 流水线 超大规模集成电路
下载PDF
K元2-立方体网络SIMD计算机图像模板匹配并行算法 被引量:9
20
作者 李俊山 沈绪榜 《计算机学报》 EI CSCD 北大核心 2001年第11期1196-1201,共6页
模板匹配是进行虑波、边缘检测、目标识别和图像匹配的一种基本和有效的方法 .对于 N× N的图像和M× N ( M<N )的模板 ,周期性模板匹配算法在单处理机上用传统的算法实现需要 O( N2 M2 )时间 .显然模板匹配和大多数图像处... 模板匹配是进行虑波、边缘检测、目标识别和图像匹配的一种基本和有效的方法 .对于 N× N的图像和M× N ( M<N )的模板 ,周期性模板匹配算法在单处理机上用传统的算法实现需要 O( N2 M2 )时间 .显然模板匹配和大多数图像处理及计算机视觉一样是计算密集型问题 ,应采用并行处理方法实现 .该文以 L S MPP并行阵列计算机的应用为研究背景 ,较详细地讨论了模板匹配算法在具有受限局部寄存器的 L S MPP计算机上的并行实现问题 ,提出了一种适用于 K元 2 -立方体网络结构的 SIMD计算机的图像模板匹配并行算法 ,并在 L S MPP计算机上得到了很好的应用 .该算法对于 N× N的图像和 M× N的模板 ,其通信复杂性和计算复杂性都是 O( M2 ) ,分析表明该算法是最优的 . 展开更多
关键词 模板匹配 并行算法 计算机 K元2-立方体网络 图像匹配 图像处理
下载PDF
上一页 1 2 20 下一页 到第
使用帮助 返回顶部