期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
基于SIMD技术的锥束ART算法快速并行图像重建 被引量:6
1
作者 张顺利 张定华 +1 位作者 李明君 吉军 《仪器仪表学报》 EI CAS CSCD 北大核心 2010年第3期630-634,共5页
ART(algebraic reconstruction technique)算法是一种迭代图像重建方法,适合于大型工业构件的无损检测,其缺点是计算量大、重建时间长。为了提高锥束ART算法的重建速度,本文提出一种快速并行图像重建方法。首先根据锥束CT扫描方式下三... ART(algebraic reconstruction technique)算法是一种迭代图像重建方法,适合于大型工业构件的无损检测,其缺点是计算量大、重建时间长。为了提高锥束ART算法的重建速度,本文提出一种快速并行图像重建方法。首先根据锥束CT扫描方式下三维射线的对称性提出一种权因子和体素索引的并行计算方法,通过一次计算可同时得到两条射线的权因子和体素索引;然后采用Intel处理器的单指令多数据(single instruction multiple data,SIMD)技术,一次性加载多个打包数据,利用SSE(streamingSIMD extension)指令实现了投影、计算图像校正和反投影的并行运算。实验结果表明本文提出的方法非常有效,在保证图像重建精度的同时取得了约1.5倍的重建加速比。 展开更多
关键词 锥束CT 图像重建 ART算法 simd技术
下载PDF
基于SIMD技术的图像卷积处理器体系结构研究 被引量:5
2
作者 佟凤辉 樊晓桠 +1 位作者 王党辉 辛明瑞 《微电子学与计算机》 CSCD 北大核心 2003年第3期13-16,20,共5页
SIMD处理机特别适合于要求大量高速向量或矩阵计算的场合,数据缓存系统和对准网络是它的关键部件。而图像卷积是图像处理技术中最基本也是最重要的一项技术,文章根据数字图像的卷积定理对数字图像的卷积运算进行了分析,在此基础上提出... SIMD处理机特别适合于要求大量高速向量或矩阵计算的场合,数据缓存系统和对准网络是它的关键部件。而图像卷积是图像处理技术中最基本也是最重要的一项技术,文章根据数字图像的卷积定理对数字图像的卷积运算进行了分析,在此基础上提出了一种基于SIMD处理机的可变卷积模板的图像卷积处理器的体系结构。该处理器内部包含有接口部件、控制部件、数据缓存系统、对准电路和执行部件等。它的极高效率的数据缓存系统和对准电路成为该处理器最有特色的部分,它从根本上解决了图像卷积中的数据复用带来的CPU重复访问主存储器的问题。实现了3×3、5×5、7×7、9×9、11×11、13×13和15×15卷积模板的图像卷积运算的变换而无需另行更改硬件电路的特点。最后,对这个图像卷积处理器体系结构的性能进行了缜密的分析。 展开更多
关键词 simd技术 图像卷积处理器 体系结构 图像处理 计算机 simd处理机 数据缓存系统 对准电路
下载PDF
基于龙芯SIMD技术的AES加解密优化 被引量:2
3
作者 顾丽红 魏海蕊 《计算机工程》 CAS CSCD 北大核心 2009年第3期189-191,221,共4页
高级加密标准AES是Linux系统中安全网络协议采用的主流的加解密算法。该文通过分析AES加解密算法,结合龙芯平台的体系结构特征,提出基于多媒体指令扩展(SIMD技术)优化AES性能的方法。优化前后的安全文件传输协议Sftp(AES加解密)数据传... 高级加密标准AES是Linux系统中安全网络协议采用的主流的加解密算法。该文通过分析AES加解密算法,结合龙芯平台的体系结构特征,提出基于多媒体指令扩展(SIMD技术)优化AES性能的方法。优化前后的安全文件传输协议Sftp(AES加解密)数据传输结果表明,龙芯SIMD技术优化AES算法减少了加解密时间,有效地提高了Sftp的网络传输速率。 展开更多
关键词 龙芯 simd技术 AES加解密 Sftp协议
下载PDF
SIMD技术在数字图像处理中的应用分析
4
作者 罗晓军 《计算机光盘软件与应用》 2012年第3期10-11,共2页
SIMD技术是用于高速向量和矩阵计算,它的结构主要是由数据缓存系统和对准网络组成,基于SIMD的图像卷积是数字图像处理中的一项主要技术。本文主要对SIMD的图像卷积系统结构和速彩色图像识别方法进行分析,来探讨SIMD技术在数字图像处理... SIMD技术是用于高速向量和矩阵计算,它的结构主要是由数据缓存系统和对准网络组成,基于SIMD的图像卷积是数字图像处理中的一项主要技术。本文主要对SIMD的图像卷积系统结构和速彩色图像识别方法进行分析,来探讨SIMD技术在数字图像处理中的应用。 展开更多
关键词 simd技术 数字图像处理 图像识别
下载PDF
应用SIMD并行技术的SHA-1加密算法的批量实现 被引量:1
5
作者 陈亦欢 严伟超 《重庆理工大学学报(自然科学)》 CAS 2012年第7期74-80,共7页
介绍了当今最为流行的加密算法———SHA-1算法,并对其原理及实现过程进行了分析,探讨了基于SHA-1算法使用SIMD技术提高CPU计算的并行能力的方法,为大量数据的散列运算以及如何在C程序中加入SHA-1算法的批量实现提供参考。
关键词 SHA-1加密算法 simd并行技术 SSE2指令集
下载PDF
基于单指令多数据流技术的视频信息处理优化 被引量:5
6
作者 张颖 王兴国 刘济林 《电视技术》 北大核心 2003年第11期40-43,共4页
针对SIMD技术的特点,阐述SIMD技术在视频处理实时软件实现中的具体应用,并以视频解码器显示模块的SIMD优化为例,分析、比较了SIMD技术优化前后的算法效率和图像质量,并探讨了在特定环境下SIMD编程的特点及优化方法。
关键词 simd技术 MMX/SSE/SSE2技术 并行处理 视频信息处理 多媒体通信
下载PDF
基于SIMD的似然率快速算法
7
作者 欧建林 蔡骏 林茜 《计算机工程》 CAS CSCD 北大核心 2009年第13期177-178,182,共3页
分析基于连续概率密度的隐马尔可夫模型大词汇量连续语音识别系统中的似然率计算方法,阐述运用并行方式实现似然率计算的可行性,并在此基础上,提出一种基于SIMD的似然率快速算法,通过对语音识别工具包HTK3.4中似然率计算模块的改进实现... 分析基于连续概率密度的隐马尔可夫模型大词汇量连续语音识别系统中的似然率计算方法,阐述运用并行方式实现似然率计算的可行性,并在此基础上,提出一种基于SIMD的似然率快速算法,通过对语音识别工具包HTK3.4中似然率计算模块的改进实现该算法。实验结果表明,在不降低识别准确率的前提下,该算法能有效加快似然率计算的速度。 展开更多
关键词 simd技术 似然率计算 隐马尔可夫模型 语音识别
下载PDF
SM4的快速软件实现技术 被引量:19
8
作者 郎欢 张蕾 吴文玲 《中国科学院大学学报(中英文)》 CSCD 北大核心 2018年第2期180-187,共8页
SM4是中国分组密码国家标准,广泛应用于各种信息系统和安全产品。某些应用环境对密码算法的软件实现性能有很高的需求。目前SM4的软件实现方法仅限于查表实现,因此,研究SM4算法的快速软件实现技术很重要。利用SIMD技术,给出SM4的软件优... SM4是中国分组密码国家标准,广泛应用于各种信息系统和安全产品。某些应用环境对密码算法的软件实现性能有很高的需求。目前SM4的软件实现方法仅限于查表实现,因此,研究SM4算法的快速软件实现技术很重要。利用SIMD技术,给出SM4的软件优化实现。与目前基于查表的软件实现相比,它有明显优势。在Intel Core i7-6700处理器上,相比于查表方法,利用SIMD技术的软件实现性能提高1.38倍。 展开更多
关键词 SM4 软件优化实现 simd技术
下载PDF
基于SIMD机制的并行排序算法 被引量:4
9
作者 明玉瑞 李思泽 《计算机系统应用》 2009年第11期87-90,共4页
探讨了如何利用现代CPU架构中的SIMD机制提高程序性能的途径,以冒泡排序为例设计了并行算法与并进行了代码实现,最后用实验结果论证了其可行性。
关键词 simd机制 冒泡排序 并行算法 simd汇编技术 优化
下载PDF
ARM授权东芝最新多核心处理技术
10
《电子与电脑》 2008年第6期102-103,共2页
ARM近日宣布与东芝(Toshiba)达成一项重大的技术授权协议,协议内容包含ARM Cortex-A9处理器、Cortex-R4F处理器、NEON SIMD技术,PrimeCell外围组件,与CoreSight芯片内建追踪与除错技术。透过这项全面采用ARM技术的协议,与去年Cort... ARM近日宣布与东芝(Toshiba)达成一项重大的技术授权协议,协议内容包含ARM Cortex-A9处理器、Cortex-R4F处理器、NEON SIMD技术,PrimeCell外围组件,与CoreSight芯片内建追踪与除错技术。透过这项全面采用ARM技术的协议,与去年Cortex-M3处理器授权协议,东芝将能提供各种最高效能的ARM Powered系统单芯片产品。 展开更多
关键词 simd技术 ARM技术 授权协议 东芝 多核心 系统单芯片 处理器 组件
下载PDF
利用SSE2指令构造随机数生成器 被引量:2
11
作者 曾光 韩文报 《信息工程大学学报》 2008年第3期268-271,共4页
异或移位随机数生成器是Marsaglia于2002年提出的周期为2k-1且适合32位CPU快速实现的随机数生成器,其中k为32,64,96,128等。近几年,通用CPU技术有了较大进展,例如单指令多数据技术和多级流水线等。文章利用第2代单指令多数据流扩展指令... 异或移位随机数生成器是Marsaglia于2002年提出的周期为2k-1且适合32位CPU快速实现的随机数生成器,其中k为32,64,96,128等。近几年,通用CPU技术有了较大进展,例如单指令多数据技术和多级流水线等。文章利用第2代单指令多数据流扩展指令设计了一类基于128比特面向软件实现的随机数生成器。这类新的生成器与异或移位随机数生成器类似,但是它可以充分利用CPU的新特性。其反馈逻辑更适合流水线处理,速度较不使用SSE2指令约有2倍的提高,同时其输出序列的随机性与异或移位随机数生成器类似。 展开更多
关键词 simd技术 SSE2指令集 异或移位随机数生成器 软件快速实现
下载PDF
SSE2指令在代码优化中的关键作用研究 被引量:2
12
作者 范建军 《华中师范大学学报(自然科学版)》 CAS CSCD 北大核心 2004年第4期423-426,共4页
代码优化是提高应用程序性能的重要手段,单指令多数据流作为一项动态改善应用程序性能的技术已被工业界广泛接受.通过对Intel的第二代单指令多数据流扩展指令系统SSE2在程序优化中的重要方法和关键实现的研究,给出实践中有关代码优化的... 代码优化是提高应用程序性能的重要手段,单指令多数据流作为一项动态改善应用程序性能的技术已被工业界广泛接受.通过对Intel的第二代单指令多数据流扩展指令系统SSE2在程序优化中的重要方法和关键实现的研究,给出实践中有关代码优化的解决方法. 展开更多
关键词 代码优化 SSE2 simd技术
下载PDF
SSE指令系统研究及应用 被引量:2
13
作者 范建军 《孝感学院学报》 2004年第6期69-73,共5页
单指令多数据流作为一项增强应用程序性能的技术已被工业界广泛接受。在高级2-D和3-D图形、DVD播放、语音识别、活动视频、影像处理、音频合成和视频会议等方面,SSE能动态改善应用程序的软件性能。文章研究了SSE的新特性并给出了SSE指... 单指令多数据流作为一项增强应用程序性能的技术已被工业界广泛接受。在高级2-D和3-D图形、DVD播放、语音识别、活动视频、影像处理、音频合成和视频会议等方面,SSE能动态改善应用程序的软件性能。文章研究了SSE的新特性并给出了SSE指令的应用。 展开更多
关键词 SSE simd技术 MMX
下载PDF
SM4算法快速软件实现 被引量:22
14
作者 张笑从 郭华 +2 位作者 张习勇 王闯 刘建伟 《密码学报》 CSCD 2020年第6期799-811,共13页
SM4是对称分组密码国家标准.加解密计算效率是衡量算法实现性能的重要指标,而目前关于SM4软件实现方法方面的研究不多.利用比特切片技术,结合支持单指令多数据(SIMD)的AVX2指令集,本文提出了一种SM4算法的快速软件优化实现方法,使用256... SM4是对称分组密码国家标准.加解密计算效率是衡量算法实现性能的重要指标,而目前关于SM4软件实现方法方面的研究不多.利用比特切片技术,结合支持单指令多数据(SIMD)的AVX2指令集,本文提出了一种SM4算法的快速软件优化实现方法,使用256位的YMM寄存器实现了SM4算法的256分组数据并行加解密.首先基于已有的选择函数构造了新的选择函数,之后改进了搜索算法,基于新的选择函数和改进的搜索算法化简了S盒的逻辑表达式,将实现逻辑表达式所需的逻辑门电路数量由3000(最简与或式)降至497.在Intel Core i7-7700HQ(Kabylake)@2.80 GHz处理器上,实现速度达到了2580 Mbps,同公开文献中的最好结果1795 Mbps(Intel Core i7-5500U(Broadwell-U)@2.40 GHz)相比,实现效率提高了43%.基于比特切片技术的软件实现优化方法无需内存或高速缓存查表,因此该方法可抵抗缓存-计时侧信道攻击,从而安全性得到了提升.本文提出的优化方法具有可扩展性,不仅适用于在X86平台上借助拓展指令集AVX2实现,还可利用RISC指令集在资源受限,安全性要求高的ARM等嵌入式平台上实现.此外,新的选择函数和搜索算法具有通用性,可用于其它一般逻辑函数的化简. 展开更多
关键词 SM4算法 软件优化实现 比特切片 simd技术
下载PDF
SSE4指令系统研究及应用
15
作者 范建军 《咸宁学院学报》 2011年第6期11-15,共5页
单指令多数据流作为一项增强应用程序性能的技术已被工业界广泛接受.在高级2-D和3-D图形、DVD播放、语音识别、活动视频、影像处理、音频合成和视频会议等方面,SSE能动态改善应用程序的软件性能.文章研究了SSE4的新特性并给出了SSE4指... 单指令多数据流作为一项增强应用程序性能的技术已被工业界广泛接受.在高级2-D和3-D图形、DVD播放、语音识别、活动视频、影像处理、音频合成和视频会议等方面,SSE能动态改善应用程序的软件性能.文章研究了SSE4的新特性并给出了SSE4指令的应用. 展开更多
关键词 SSFA simd技术 指令系统
下载PDF
Intel MMX多媒体扩展指令系统
16
作者 范建军 《咸宁学院学报》 2003年第6期51-54,共4页
详细论述了Intel公司生产的处理器中新增的多媒体扩展指令系统的功能及其相应的技术
关键词 MMX技术 simd技术 MMX指令
下载PDF
向量数学库的向量化方法研究 被引量:9
17
作者 周蓓 黄永忠 +1 位作者 许瑾晨 郭绍忠 《计算机科学》 CSCD 北大核心 2019年第1期320-324,共5页
SIMD技术的出现使得基础数学库扩展到向量数学库成为必然趋势。基础数学库中多数函数存在代码实现复杂、分支判断多的特点,增加了向量化的难度,同时SIMD指令的不完备导致函数中的部分功能无法直接向量化,频繁的拆分和拼接操作降低了函... SIMD技术的出现使得基础数学库扩展到向量数学库成为必然趋势。基础数学库中多数函数存在代码实现复杂、分支判断多的特点,增加了向量化的难度,同时SIMD指令的不完备导致函数中的部分功能无法直接向量化,频繁的拆分和拼接操作降低了函数的性能。针对这些问题,提出了向量数学库的向量化方法,通过确定核心代码段、数据预处理过程向量化及指令向量化3个步骤,可以快速有效地对基础数学库进行向量化。实验表明,运用该方法,exp,pow,log10等典型函数的性能平均提高了24.2%。 展开更多
关键词 simd技术 向量数学库 核心代码段 数据预处理 指令向量化
下载PDF
基于CEVA平台的WMV视频解码器优化
18
作者 赵建仁 邢玲 陈蕾 《电子设计工程》 2011年第23期181-184,共4页
针对VC-1标准下的WMV视频解码,提出了一种基于CEVA平台下的优化方案。该方案对运动补偿、去方块滤波、反量化、反变换的算法结构进行优化后,再利用CEVA的SIMD(单指令多数据处理)和VLIW(超长指令字)技术实现DSP平台上的优化。实验仿真表... 针对VC-1标准下的WMV视频解码,提出了一种基于CEVA平台下的优化方案。该方案对运动补偿、去方块滤波、反量化、反变换的算法结构进行优化后,再利用CEVA的SIMD(单指令多数据处理)和VLIW(超长指令字)技术实现DSP平台上的优化。实验仿真表明:经过优化处理后,各个模块解码时间对比之前有了大幅度降低,解码速度最高可达30帧/秒,能够有效的支持标清和高清视频的实时解码。 展开更多
关键词 VC-1标准 CEVA平台 simd技术 WMV算法 解码:优化
下载PDF
MP3解码在数字信号处理芯片上的并行实现
19
作者 李彩容 《湖北大学学报(自然科学版)》 CAS 北大核心 2006年第2期144-146,共3页
由于MP3解码算法比较复杂,其中大多数运算是32位的运算,但是一些数字信号处理(DSP)芯片只支持16位的定点运算.为了在支持16位定点并行运算的数字信号处理(DSP)芯片上并行实现MP3解码程序,通过研究MP3定点解码程序中的运算特点和常用的支... 由于MP3解码算法比较复杂,其中大多数运算是32位的运算,但是一些数字信号处理(DSP)芯片只支持16位的定点运算.为了在支持16位定点并行运算的数字信号处理(DSP)芯片上并行实现MP3解码程序,通过研究MP3定点解码程序中的运算特点和常用的支持16位定点并行运算的数字信号处理(DSP)芯片的特点,提出了MP3解码程序中32位的加法、减法和乘法运算在支持16位运算的DSP上的并行实现方法.实验表明,该算法充分利用了DSP芯片的并行功能,解码效果与参考C代码解码效果一致. 展开更多
关键词 MP3 DSP(数字信号处理) simd(单指令多数据)技术 定标
下载PDF
定点FFT的DSP向量混洗并行基4算法
20
作者 王书盈 胡勇华 +1 位作者 张鑫 陆浩松 《湖南科技大学学报(自然科学版)》 CAS 北大核心 2024年第2期75-86,共12页
基于定点数据的快速傅里叶变换(Fast Fourier Transform, FFT)算法能在合理的精度范围内降低对硬件的要求,计算速度更快.文章面向高性能向量数字信号处理器(Digital Signal Processor, DSP)的硬件特征,构建基4复数FFT算法的高效指令级... 基于定点数据的快速傅里叶变换(Fast Fourier Transform, FFT)算法能在合理的精度范围内降低对硬件的要求,计算速度更快.文章面向高性能向量数字信号处理器(Digital Signal Processor, DSP)的硬件特征,构建基4复数FFT算法的高效指令级并行处理模型.该模型充分考虑基4方法下的复数FFT计算过程和蝶形组集合的特征,将SIMD计算、向量混洗、索引DMA等技术与复数FFT的基4变换过程充分融合,有效控制计算过程中存储器和片内缓存之间的数据块搬移需求,提升SIMD计算单元的利用率.在基于自主YHFT-M7002处理器的FT-M7002DSK平台上进行试验研究,验证算法的有效性.试验结果表明:与CCS模拟所得TI的相应TMS320C6678库函数性能相比,所提优化算法的平均加速比达到TI库函数的4.79倍. 展开更多
关键词 基4复数FFT simd技术 向量DSP 向量混洗 索引DMA
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部