期刊文献+
共找到480篇文章
< 1 2 24 >
每页显示 20 50 100
基于Intel SIMD指令的二维FFT优化算法 被引量:11
1
作者 李成军 周卫峰 朱重光 《计算机工程与应用》 CSCD 北大核心 2007年第5期41-44,共4页
在基于频域的大数据量图像处理算法中,最为耗时的步骤就是对图像数据进行二维FFT变换的过程。论文针对这一问题,提出一种基于Intel SIMD指令的二维FFT优化算法。通过将数据按照便于SIMD指令计算的方式进行组织,利用SSE3指令加速复数乘法... 在基于频域的大数据量图像处理算法中,最为耗时的步骤就是对图像数据进行二维FFT变换的过程。论文针对这一问题,提出一种基于Intel SIMD指令的二维FFT优化算法。通过将数据按照便于SIMD指令计算的方式进行组织,利用SSE3指令加速复数乘法,在二维处理中针对处理器缓存进行优化等方法,实现了很高的性能。实验结果表明:描述的算法比目前使用最广泛的公共域FFT程序包FFTW快30%左右。达到了对大数据量图像进行快速处理的要求,具有较大的工程实用价值。 展开更多
关键词 大数据量图像处理 二维FFT simd SSE/SSE3
下载PDF
LS SIMD协处理器控制器设计 被引量:1
2
作者 周国昌 王忠 +1 位作者 车德亮 冯国臣 《计算机应用研究》 CSCD 北大核心 2005年第7期99-100,104,共3页
LSSIMD协处理器是用于底层图像理解的16位定点嵌入式阵列处理器,该处理器除SIMD固有的数据并行性外,还具有三级流水和三组指令并发执行的并行性。主要阐述LSSIMD协处理器的三级流水线和三组指令并发执行的基本可重用的主控制器设计。
关键词 LS simd 三级流水 VLSI 指令并发执行
下载PDF
LS SIMD微处理器中的三组指令并发执行的设计 被引量:2
3
作者 李莉 钱刚 沈绪榜 《微电子学与计算机》 CSCD 北大核心 2002年第8期49-52,共4页
文章介绍了LSSIMD微处理器中实现三组指令并发执行的可能性和必要性,分析了三组指令并发执行给流水线带来的影响,并讨论了控制逻辑对三级指令并发执行的控制及其实现形式。
关键词 LS simd微处理器 指令并发执行 设计 流水线 控制逻辑
下载PDF
LS SIMD阵列微处理器控制信号时序分析 被引量:1
4
作者 桑红石 沈绪榜 陈朝阳 《小型微型计算机系统》 CSCD 北大核心 2001年第12期1435-1437,共3页
本文在介绍 L S SIMD阵列微处理器系统结构的基础上 ,重点分析了 L S SIMD处理元阵列控制信号中串行移位控制信号的时序 ,并针对存在的问题 ,提出了改进方法 ,实践证明该方法是行之有效的 ,可以运用于类似的微处理器设计中 ,以提高 VL
关键词 时序分析 simd阵列 微处理器 VLSI 控制信号
下载PDF
Blocking optimized SIMD tree search on modern processors 被引量:2
5
作者 张倬 陆宇凡 +2 位作者 沈文枫 徐炜民 郑衍衡 《Journal of Shanghai University(English Edition)》 CAS 2011年第5期437-444,共8页
Tree search is a widely used fundamental algorithm. Modern processors provide tremendous computing power by integrating multiple cores, each with a vector processing unit. This paper reviews some studies on exploiting... Tree search is a widely used fundamental algorithm. Modern processors provide tremendous computing power by integrating multiple cores, each with a vector processing unit. This paper reviews some studies on exploiting single instruction multiple date (SIMD) capacity of processors to improve the performance of tree search, and proposes several improvement methods on reported SIMD tree search algorithms. Based on blocking tree structure, blocking for memory alignment and dynamic blocking prefetch are proposed to optimize the overhead of memory access. Furthermore, as a way of non-linear loop unrolling, the search branch unwinding shows that the number of branches can exceed the data width of SIMD instructions in the SIMD search algorithm. The experiments suggest that blocking optimized SIMD tree search algorithm can achieve 1.6 times response speed faster than the un-optimized algorithm. 展开更多
关键词 single instruction multiple date simd tree search binary search streaming simd extensions (SSE) Cell broadband engine (BE)
下载PDF
LS SIMD计算机的并行技术 被引量:2
6
作者 赵晓红 沈绪榜 《微电子学与计算机》 CSCD 北大核心 2000年第2期15-17,41,共4页
文章主要讨论了LSSIMD计算机中所采用的并行技术 :数据并行技术、三级指令流水线并行技术与三组指令并行执行技术。
关键词 数据并行 三组指令并行 并行计算机 simd
下载PDF
LS SIMD计算机并行计算的面向对象仿真 被引量:1
7
作者 张发存 赵晓红 沈绪榜 《计算机工程与应用》 CSCD 北大核心 2003年第26期143-146,共4页
论文详细介绍了基于LSSIMD计算机的并行计算的面向对象仿真,提出了一个新颖的SIMD机的面向对象软件模型,并在PC机Windows平台上用MicrosoftVisualC++6.0编程实现。通过对一组数字图象采用不同的处理算法进行仿真计算、并与LSSIMD并行机... 论文详细介绍了基于LSSIMD计算机的并行计算的面向对象仿真,提出了一个新颖的SIMD机的面向对象软件模型,并在PC机Windows平台上用MicrosoftVisualC++6.0编程实现。通过对一组数字图象采用不同的处理算法进行仿真计算、并与LSSIMD并行机的同样图象的相同算法的运行结果进行比较,证明该系统具有正确性、实用性和可靠性。 展开更多
关键词 单指令流多数据流 面向对象 仿真 汇编解释器
下载PDF
BWDSP SIMD编译的寄存器分配优化技术研究 被引量:1
8
作者 王昊 王向前 《单片机与嵌入式系统应用》 2015年第4期4-7,共4页
BWDSP是一款自主设计的国产VLIW(超长指令字)数字信号处理器,支持SIMD技术,其SIMD指令可以在4个宏上同时执行4个32位计算,对寄存器使用有特殊规则,Open64编译器的寄存器分配策略并不适用于这种规则。本文对BWDSP SIMD指令的寄存器分配... BWDSP是一款自主设计的国产VLIW(超长指令字)数字信号处理器,支持SIMD技术,其SIMD指令可以在4个宏上同时执行4个32位计算,对寄存器使用有特殊规则,Open64编译器的寄存器分配策略并不适用于这种规则。本文对BWDSP SIMD指令的寄存器分配优化技术进行了研究,并在BWDSP的编译器OCC上得以实现。 展开更多
关键词 DSP simd 寄存器分配
下载PDF
Timed Petri Net Models of Shared-Memory Bus-Based Multiprocessors 被引量:1
9
作者 Wlodek M. Zuberek 《Journal of Computer and Communications》 2018年第10期1-14,共14页
In shared-memory bus-based multiprocessors, when the number of processors grows, the processors spend an increasing amount of time waiting for access to the bus (and shared memory). This contention reduces the perform... In shared-memory bus-based multiprocessors, when the number of processors grows, the processors spend an increasing amount of time waiting for access to the bus (and shared memory). This contention reduces the performance of processors and imposes a limitation of the number of processors that can be used efficiently in bus-based systems. Since the multi-processor’s performance depends upon many parameters which affect the performance in different ways, timed Petri nets are used to model shared-memory bus-based multiprocessors at the instruction execution level, and the developed models are used to study how the performance of processors changes with the number of processors in the system. The results illustrate very well the restriction on the number of processors imposed by the shared bus. All performance characteristics presented in this paper are obtained by discrete-event simulation of Petri net models. 展开更多
关键词 shared-memory MULTIPROCESSORS BUS-BASED MULTIPROCESSORS TIMED PETRI NETS Discrete-Event Simulation
下载PDF
BWDSP SIMD指令的WHIRL中间表示生成研究 被引量:1
10
作者 王昊 王向前 《中国集成电路》 2015年第3期30-35,共6页
WHIRL是Open64采用的一种通用的中间表示,支持多种高级语言和多种目标机。Open64的后端优化工作都是基于WHIRL设计的。BWDSP是一款支持SIMD指令的数字信号处理器,SIMD指令能够提高该处理器的指令并行性。SIMD优化也需要产生WHIRL中间表... WHIRL是Open64采用的一种通用的中间表示,支持多种高级语言和多种目标机。Open64的后端优化工作都是基于WHIRL设计的。BWDSP是一款支持SIMD指令的数字信号处理器,SIMD指令能够提高该处理器的指令并行性。SIMD优化也需要产生WHIRL中间表示,本文对如何产生BWDSP SIMD指令的WHIRL中间表示进行了研究,并在BWDSP的编译器OCC上得以实现。 展开更多
关键词 数字信号处理器 单指令多数据 WHIRL 中间表示
下载PDF
PARALLEL(M-N) SVD ALGORITHMS ON THE SIMD COMPUTERS
11
作者 Wang Guorong Wei Yimin(Dept. of Mathematics, Shanghai Normal University Shanghai 200234, P. R. China Institute of Mathematics, Fudan University Shanghai 200133, P. R. China) 《Wuhan University Journal of Natural Sciences》 CAS 1996年第Z1期541-546,共6页
Let A be m by n matrix, M and N be positive definite matrices of order in and n respectively. This paper presents an efficient method for computing (M-N) singular value decomposition((M-N) SVD) of A on a cube connecte... Let A be m by n matrix, M and N be positive definite matrices of order in and n respectively. This paper presents an efficient method for computing (M-N) singular value decomposition((M-N) SVD) of A on a cube connected single instruction stream-multiple data stream(SIMD) parallel computer. This method is based on a one-sided orthogonalization algorithm due to Hestenes. On the cube connected SIMD parallel computer with o(n) processors, the (M -- N) SVD of a matrix A requires a computation time of o(m3 log m/n). 展开更多
关键词 Parallel algorithm cube connected simd machine (M-N) SVD.
下载PDF
基于多个 DSP 的图像处理 SIMD 并行结构 被引量:3
12
作者 陈益新 陈思培 +1 位作者 李雯 张桂林 《华中理工大学学报》 CSCD 北大核心 1997年第A01期30-33,共4页
通过分析低层图像处理算法特点,指出标准SIMD结构不能完成某些低层图像处理算法的数据综合任务,提出的改进型SIMD结构增加了多指令控制、共享存储器单元,能执行更多种类图像处理算法,讨论了图像在SIMD结构计算机上的一... 通过分析低层图像处理算法特点,指出标准SIMD结构不能完成某些低层图像处理算法的数据综合任务,提出的改进型SIMD结构增加了多指令控制、共享存储器单元,能执行更多种类图像处理算法,讨论了图像在SIMD结构计算机上的一维、二维分块方法,结果表明一维图像分块在互连网络硬件量、算法执行速度两方面更具优越性. 展开更多
关键词 图像处理 计算机 互连网络 simd结构 DSP
下载PDF
ALGORITHMS AND ARCHITECTURE IMPLEMENTATIONS OF MIMO OFDM BASEBAND RECEIVER BASED ON THE SIMD DSP CORE 被引量:1
13
作者 Hao Xuefei Chen Jie +1 位作者 Zhao Danfeng Zhou Chaoxian 《Journal of Electronics(China)》 2006年第5期763-768,共6页
This letter presents a programmable single-chip architecture for Multi-lnput and Multi-Output (M1MO) OFDM baseband receiver. The architecture comprises a Single Instruction Multiple Data (SIMD) DSP core and three ... This letter presents a programmable single-chip architecture for Multi-lnput and Multi-Output (M1MO) OFDM baseband receiver. The architecture comprises a Single Instruction Multiple Data (SIMD) DSP core and three coprocessors that are used for synchronization, FFT and channel decoder. In this MIMO OFDM system, the Zero Correlation Zone (ZCZ) code is used as the synchronization word preamble of packet in the physical layer in order to avoid the interference from other transmitting antennas. Furthermore, a simple channel estimation algorithm is proposed which is appropriate tbr the SIMD DSP computation. 展开更多
关键词 Multi-Input and Multi-Output (MIMO) OFDM Baseband receiver Zero Correlation Zone (ZCZ) code Single Instruction Multiple Data simd DSP
下载PDF
Efficient SIMD optimization for media processors
14
作者 Jian-peng ZHOU Ce SHI 《Journal of Zhejiang University-Science A(Applied Physics & Engineering)》 SCIE EI CAS CSCD 2008年第4期524-530,共7页
Single instruction multiple data (SIMD) instructions are often implemented in modem media processors. Although SIMD instructions are useful in multimedia applications, most compilers do not have good support for SIM... Single instruction multiple data (SIMD) instructions are often implemented in modem media processors. Although SIMD instructions are useful in multimedia applications, most compilers do not have good support for SIMD instructions. This paper focuses on SIMD instructions generation for media processors. We present an efficient code optimization approach that is integrated into a retargetable C compiler. SIMD instructions are generated by finding and combining the same operations in programs. Experimental results for the UltraSPARC VIS instruction set show that a speedup factor up to 2.639 is obtained. 展开更多
关键词 Retargetable compiler Single instruction multiple data simd instruction LCC
下载PDF
面向SIMD指令集的SM4算法比特切片优化
15
作者 王闯 丁滟 +1 位作者 黄辰林 宋连涛 《计算机研究与发展》 EI CSCD 北大核心 2024年第8期2097-2109,共13页
SM4算法是中国自主设计的商用分组密码算法,其加解密计算性能成为影响信息系统数据机密性保障的重要因素之一.现有SM4算法优化主要面向硬件设计和软件查表等方向展开研究,分别存在依赖特定硬件环境、效率低下且易遭受侧信道攻击等问题.... SM4算法是中国自主设计的商用分组密码算法,其加解密计算性能成为影响信息系统数据机密性保障的重要因素之一.现有SM4算法优化主要面向硬件设计和软件查表等方向展开研究,分别存在依赖特定硬件环境、效率低下且易遭受侧信道攻击等问题.比特切片技术通过对输入数据重组实现了并行化高效分组密码处理,可以抵御针对缓存的侧信道攻击.然而现有切片分组密码研究对硬件平台相关性强、处理器架构支持单一,并且并行化处理流水启动较慢,面向小规模数据的加解密操作难以充分发挥单指令多数据(single instruction multiple data,SIMD)等先进指令集的优势.针对上述问题,首先提出了一种跨平台的通用切片分组密码算法模型,支持面向不同的处理器指令字长提供一致化的通用数据切片方法.在此基础上,提出了一种面向SIMD指令集的细粒度切片并行处理SM4优化算法,通过细粒度明文切片重组与线性处理优化有效缩短算法启动时间.实验结果表明,相比通用SM4算法,优化的SM4比特切片算法加密速率最高可达438.0 MBps,加密每字节所需的时钟周期最快高达7.0 CPB(cycle/B),加密性能平均提升80.4%~430.3%. 展开更多
关键词 SM4算法 性能优化 比特切片 侧信道攻击 simd指令集
下载PDF
基于SIMD的AVS3并行率失真优化量化算法
16
作者 唐毅欣 黄晓峰 +3 位作者 唐然 周洋 崔燕 殷海兵 《电信科学》 北大核心 2024年第6期114-126,共13页
针对第三代音频视频标准(the third generation audio video coding standard,AVS3)中的率失真优化量化(rate-distortion optimization quantization,RDOQ)过程的编码效率问题,提出一种基于单指令多数据(single instruction multiple da... 针对第三代音频视频标准(the third generation audio video coding standard,AVS3)中的率失真优化量化(rate-distortion optimization quantization,RDOQ)过程的编码效率问题,提出一种基于单指令多数据(single instruction multiple data,SIMD)的并行RDOQ算法。首先,在最优系数决策(optimal coefficient decision,OCD)阶段,通过优化,仅保留扫描线内的依赖关系。然后,在最后一个非零位置决策(last non-zero position decision,LNPD)阶段,基于分治策略,通过将Zig-Zag扫描线分解成多个独立扫描线,实现每条扫描线上最优系数位置的并行计算。最后,采用SIMD指令进行并行加速,以提高整个率失真优化量化的计算效率。实验结果表明,该算法在AI配置下,可以降低29.46%的编码时间,而BD-Rate仅损失0.25%。 展开更多
关键词 AVS3 率失真优化量化 单指令多数据 并行加速
下载PDF
基于QEMU的SIMD指令替换浮点指令框架
17
作者 刘登峰 李东亚 +2 位作者 柴志雷 周浩杰 丁海峰 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第8期70-77,共8页
现在,几乎每个处理器架构都已经加入了对SIMD(single instruction multiple data)指令的支持,SIMD指令能同时对一组数据执行相同的操作,通过数据并行来提高处理器的处理性能.但是大部分动态二进制翻译器忽略了本地SIMD指令的利用,而是... 现在,几乎每个处理器架构都已经加入了对SIMD(single instruction multiple data)指令的支持,SIMD指令能同时对一组数据执行相同的操作,通过数据并行来提高处理器的处理性能.但是大部分动态二进制翻译器忽略了本地SIMD指令的利用,而是以软件语言实现来模拟浮点计算.本文提出了一种基于QEMU翻译系统的FP-QEMU框架,FP-QEMU框架采用SIMD指令来优化替换浮点计算指令,并在X86和ARM平台上完成了完整的浮点实现.该框架可以识别动态二进制翻译系统中的浮点计算优化机会并利用SIMD指令来提升系统翻译的性能.采用SPEC 2006作为测试基准,实验表明相比QEMU,FP-QEMU跨平台的ARM应用在X86计算机上运行的最高加速比可达51.5%,平均加速比达到37.42%. 展开更多
关键词 simd QEMU 动态二进制翻译 浮点计算
下载PDF
SIMD指令及其在C++编程语言中的应用 被引量:1
18
作者 张小丹 杨严硕 +2 位作者 胡婉靖 王亚峰 肖春杨 《科技视界》 2024年第8期15-17,共3页
单指令多数据流指令是一种非常有效的单线程加速方法,通过使用SIMD指令集,计算机可以同时对多个数据执行相同的运算,从而实现程序加速。针对SIMD的具体应用,文章结合目前常用的C++语言进行加速过程讲解与代码编程,介绍了SIMD相关基本概... 单指令多数据流指令是一种非常有效的单线程加速方法,通过使用SIMD指令集,计算机可以同时对多个数据执行相同的运算,从而实现程序加速。针对SIMD的具体应用,文章结合目前常用的C++语言进行加速过程讲解与代码编程,介绍了SIMD相关基本概念和指令集,然后基于C++编程语言测试SIMD的加速性能。实验结果表明,SIMD在单线程情况下可以显著加快代码运行速度。 展开更多
关键词 simd指令集 程序加速 单线程加速 程序优化
下载PDF
基于申威SIMD指令的H.264编码优化
19
作者 黄朴 刘世巍 +1 位作者 张昊 王聪 《现代电子技术》 北大核心 2024年第6期49-54,共6页
国产化申威处理器出现较晚,其在多媒体领域中的性能还不突出,同时通用处理器中的单指令流多数据流(SIMD)因能有效提升并行处理能力而受到处理器厂商的青睐。为提高国产化自主平台申威架构的多媒体处理能力,结合申威架构Core3B体系的SIM... 国产化申威处理器出现较晚,其在多媒体领域中的性能还不突出,同时通用处理器中的单指令流多数据流(SIMD)因能有效提升并行处理能力而受到处理器厂商的青睐。为提高国产化自主平台申威架构的多媒体处理能力,结合申威架构Core3B体系的SIMD指令系统,提出一种基于申威架构的SIMD指令集H.264编码优化方法。结合申威处理器的并行结构特点,利用申威适配的Perf、Top指令等系统性能分析工具,采集两种主流视频分辨率下与编码性能强相关的高频热点函数,详细分析其程序并行化可行性,采用手工嵌入申威SIMD和访存扩展等汇编指令进行细粒度优化。实验结果表明,该方法在申威架构下的H.264平均编码性能提升了约30%。相应工作成果已推送到申威社区,增强了基于申威处理器的国产计算机在桌面多媒体应用领域的工作体验。 展开更多
关键词 单指令流多数据流 H.264标准 申威处理器 热点函数 程序并行化 细粒度
下载PDF
利用SIMD向量化的数据流软错误检测算法 被引量:1
20
作者 张磊 彭飞 +1 位作者 曹子宁 庄毅 《小型微型计算机系统》 CSCD 北大核心 2023年第5期1114-1120,共7页
由于现代处理器不断缩减芯片上元件尺寸、速度不断提高,会导致严重的可靠性问题.针对现有基于冗余的数据流软检错算法效率低下问题,本文提出一种基于SIMD向量化的数据流软错误检测算法VBSED,利用单指令多数据流并行性来提高软件冗余算... 由于现代处理器不断缩减芯片上元件尺寸、速度不断提高,会导致严重的可靠性问题.针对现有基于冗余的数据流软检错算法效率低下问题,本文提出一种基于SIMD向量化的数据流软错误检测算法VBSED,利用单指令多数据流并行性来提高软件冗余算法的效率,将原代码与冗余代码转换为高效率的SIMD代码,生成具有检错能力的加固程序.对比实验结果表明本文提出的算法可降低加固代码的时空开销,该算法还具有现有算法一般不能检测缓存等部件软错误的优点,并通过故障注入实验验证本文算法在寄存器、缓存和主存部件具有更高的错误检错率. 展开更多
关键词 simd 向量化 数据流 错误检测 故障注入
下载PDF
上一页 1 2 24 下一页 到第
使用帮助 返回顶部