期刊文献+
共找到93篇文章
< 1 2 5 >
每页显示 20 50 100
x86处理器向量条件访存指令安全脆弱性分析
1
作者 李丹萍 朱子元 +1 位作者 史岗 孟丹 《计算机学报》 EI CAS CSCD 北大核心 2024年第3期525-543,共19页
单指令多数据流(Single Instruction stream,Multiple Data streams,SIMD)是一种利用数据级并行提高处理器性能的技术,旨在利用多个处理器并行执行同一条指令增加数据处理的吞吐量.随着大数据、人工智能等技术的兴起,人们对数据并行化... 单指令多数据流(Single Instruction stream,Multiple Data streams,SIMD)是一种利用数据级并行提高处理器性能的技术,旨在利用多个处理器并行执行同一条指令增加数据处理的吞吐量.随着大数据、人工智能等技术的兴起,人们对数据并行化处理的需求不断提高,这使得SIMD技术愈发重要.为了支持SIMD技术,Intel和AMD等x86处理器厂商从1996年开始在其处理器中陆续引入了MMX(MultiMedia Extensions)、SSE(Streaming SIMD Extensions)、AVX(Advanced Vector eXtensions)等SIMD指令集扩展.通过调用SIMD指令,程序员能够无需理解SIMD技术的硬件层实现细节就方便地使用它的功能.然而,随着熔断、幽灵等处理器硬件漏洞的发现,人们逐渐认识到并行优化技术是一柄双刃剑,它在提高性能的同时也能带来安全风险.本文聚焦于x86 SIMD指令集扩展中的VMASKMOV指令,对它的安全脆弱性进行了分析.本文的主要贡献如下:(1)利用时间戳计数器等技术对VMASKMOV指令进行了微架构逆向工程,首次发现VMASKMOV指令与内存页管理和CPU Fill Buffer等安全风险的相关性;(2)披露了一个新的处理器漏洞EvilMask,它广泛存在于Intel和AMD处理器上,并提出了3个EvilMask攻击原语:VMASKMOVL+Time(MAP)、VMASKMOVS+Time(XD)和VMASKMOVL+MDS,可用于实施去地址空间布局随机化攻击和进程数据窃取攻击;(3)给出了2个EvilMask概念验证示例(Proof-of-Concept,PoC)验证了EvilMask对真实世界的信息安全危害;(4)讨论了针对EvilMask的防御方案,指出最根本的解决方法是在硬件层面上重新实现VMASKMOV指令,并给出了初步的实现方案. 展开更多
关键词 处理器安全 单指令多数据流(simd) 微体系结构侧信道攻击 VMASKMOV指令 地址空间布局随机化(ASLR)
下载PDF
便笺式存储器中一种新颖的交错映射数据布局
2
作者 曾灵灵 张敦博 +1 位作者 沈立 窦强 《计算机工程》 CAS CSCD 北大核心 2024年第5期33-40,共8页
现代计算机一直沿用传统的线性数据布局模式,该模式允许对使用行主序模式存储的二维矩阵进行高效的行优先数据访问,但是增加了高效执行列优先数据访问的复杂性,造成列优先访问的空间局部性较差。改善列优先数据访存效率的常见解决方案... 现代计算机一直沿用传统的线性数据布局模式,该模式允许对使用行主序模式存储的二维矩阵进行高效的行优先数据访问,但是增加了高效执行列优先数据访问的复杂性,造成列优先访问的空间局部性较差。改善列优先数据访存效率的常见解决方案是对原始矩阵进行预先转置操作,将列优先访问的复杂性集中在一次矩阵转置运算中,然而矩阵转置不仅会引入额外的数据传输操作,而且会消耗额外的存储空间用于存储转置后的矩阵。为了在不引入额外开销的情况下使行优先与列优先数据访问具有同样高效的访存效率,提出一种新颖的交错映射(IM)数据布局,同时在不改变便笺式存储器(SPM)内部结构的基础上,在SPM的输入和输出(I/O)接口处添加循环移位单元和译码单元2个新组件,实现交错映射数据布局并定制访存指令,使程序员可通过定制的访存指令充分利用该数据布局。实验结果表明,应用交错映射数据布局的SPM在仅额外增加了1.73%面积开销的情况下获得了1.4倍的加速。 展开更多
关键词 矩阵转置 单指令多数据 便笺式存储器 数据布局 静态随机存储器
下载PDF
SIMD计算机的面向对象仿真方法 被引量:1
3
作者 王馨梅 张发存 崔杜武 《计算机工程》 EI CAS CSCD 北大核心 2005年第17期90-91,94,共3页
以网格互联型SIMD计算机为例,提出一个数据并行计算的面向对象仿真方法:首先对网格互联型SIMD计算机系统结构进行研究,抽象出其数学模型。然后在数学模型基础上,结合3个辅助表,设计出一个高度兼容的仿真机类,该类可实例化为不同结构参... 以网格互联型SIMD计算机为例,提出一个数据并行计算的面向对象仿真方法:首先对网格互联型SIMD计算机系统结构进行研究,抽象出其数学模型。然后在数学模型基础上,结合3个辅助表,设计出一个高度兼容的仿真机类,该类可实例化为不同结构参数及指令集的网格互联型SIMD计算机的仿真机对象。这种方法能大大提高计算机仿真软件的开发效率。 展开更多
关键词 仿真 面向对象设计 simd
下载PDF
SIMD代码中的向量访存优化研究 被引量:1
4
作者 徐金龙 赵荣彩 徐晓燕 《计算机科学》 CSCD 北大核心 2015年第12期18-22,共5页
向量程序来源于手工编写或由编译器自动生成。受限于编程人员和并行编译器的能力,得到的向量程序都存在一定的优化空间。优化编译器通常关注如何将串行程序向量化,但很少对向量程序进行优化。因此,提出了一种针对SIMD代码的向量访存优... 向量程序来源于手工编写或由编译器自动生成。受限于编程人员和并行编译器的能力,得到的向量程序都存在一定的优化空间。优化编译器通常关注如何将串行程序向量化,但很少对向量程序进行优化。因此,提出了一种针对SIMD代码的向量访存优化方法。该方法首先分析程序是否需要优化,若存在需求,则对程序同时进行深度冗余优化和对齐优化。实验数据显示,提出的方法可以明显提高程序的运行效率,达到了目标。 展开更多
关键词 向量化 simd 访存冗余 对齐优化
下载PDF
PEPFL:A framework for a practical and efficient privacy-preserving federated learning
5
作者 Yange Chen Baocang Wang +3 位作者 Hang Jiang Pu Duan Yuan Ping Zhiyong Hong 《Digital Communications and Networks》 SCIE CSCD 2024年第2期355-368,共14页
As an emerging joint learning model,federated learning is a promising way to combine model parameters of different users for training and inference without collecting users’original data.However,a practical and effic... As an emerging joint learning model,federated learning is a promising way to combine model parameters of different users for training and inference without collecting users’original data.However,a practical and efficient solution has not been established in previous work due to the absence of efficient matrix computation and cryptography schemes in the privacy-preserving federated learning model,especially in partially homomorphic cryptosystems.In this paper,we propose a Practical and Efficient Privacy-preserving Federated Learning(PEPFL)framework.First,we present a lifted distributed ElGamal cryptosystem for federated learning,which can solve the multi-key problem in federated learning.Secondly,we develop a Practical Partially Single Instruction Multiple Data(PSIMD)parallelism scheme that can encode a plaintext matrix into single plaintext for encryption,improving the encryption efficiency and reducing the communication cost in partially homomorphic cryptosystem.In addition,based on the Convolutional Neural Network(CNN)and the designed cryptosystem,a novel privacy-preserving federated learning framework is designed by using Momentum Gradient Descent(MGD).Finally,we evaluate the security and performance of PEPFL.The experiment results demonstrate that the scheme is practicable,effective,and secure with low communication and computation costs. 展开更多
关键词 Federated learning Partially single instruction multiple data Momentum gradient descent ELGAMAL Multi-key Homomorphic encryption
下载PDF
基于MMX技术的SIMD并行运算优化算法 被引量:1
6
作者 张剑 《传感技术学报》 CAS CSCD 北大核心 2005年第4期897-900,共4页
将面向对象思想引入到SAD值计算的并行操作过程中,并从SIMD并行运算的角度出发,给出了改进的图像组织优化算法,通过对MMX优化后的编码器速度的测试结果知,在目前H.264/AVC的视频编码上,该编码器的编码速度有明显地提高,为实现窄带中的... 将面向对象思想引入到SAD值计算的并行操作过程中,并从SIMD并行运算的角度出发,给出了改进的图像组织优化算法,通过对MMX优化后的编码器速度的测试结果知,在目前H.264/AVC的视频编码上,该编码器的编码速度有明显地提高,为实现窄带中的实时视频通信提供了保障。 展开更多
关键词 编码器 矢量 并行运算 单指令多数据
下载PDF
使用SIMD协处理器的高性能声码器
7
作者 高路 郭立 +1 位作者 韩琼磊 杨帆 《计算机工程与应用》 CSCD 北大核心 2009年第36期66-70,共5页
近年来,传统的SOC设计方法已无法跟上数据密集型应用的需求。采用了一种面向应用的设计思路,通过添加定制的协处理器和扩展指令集的方式来加速语音编解码算法。选用可配置的LEON-2RISC软核,并嵌入特别定制的向量乘累加单元来减少运算密... 近年来,传统的SOC设计方法已无法跟上数据密集型应用的需求。采用了一种面向应用的设计思路,通过添加定制的协处理器和扩展指令集的方式来加速语音编解码算法。选用可配置的LEON-2RISC软核,并嵌入特别定制的向量乘累加单元来减少运算密集型模块的计算时间,采用不添加新的IP模块的方法改善性能。实验结果表明,对于大量使用乘累加运算的编解码算法,其加速效果最为明显,运算时间平均减少了45%。目前,整个系统已经在Stratix2 EP2S60C5 FPGA上得到了验证,频率50MHz。 展开更多
关键词 单指令多数据 指令集 协处理器 并行
下载PDF
基于SIMD架构的相干累加运算优化方法
8
作者 陈源 王元钦 董绪荣 《计算机工程》 CAS CSCD 北大核心 2011年第20期268-270,共3页
针对软件GPS接收机在处理高数据流时存在的实时性问题,提出一种基于单指令多数据流(SIMD)架构的相干运算优化方法。分析跟踪环路结构、SIMD指令与相干积分累加运算量,使用多媒体扩展指令集对流水线进行优化。实验结果表明,完成1 s数据... 针对软件GPS接收机在处理高数据流时存在的实时性问题,提出一种基于单指令多数据流(SIMD)架构的相干运算优化方法。分析跟踪环路结构、SIMD指令与相干积分累加运算量,使用多媒体扩展指令集对流水线进行优化。实验结果表明,完成1 s数据的相干积分累加计算时间为0.7 s,该运算量仅为使用普通单指令多数据流指令的6.5%,具有较高的实时性。 展开更多
关键词 单指令多数据流技术 GPS软件 相干积分 流水线优化
下载PDF
SIMD图像处理机存储系统研究
9
作者 段宗涛 沙爱民 孙朝云 《微电子学与计算机》 CSCD 北大核心 2008年第5期114-116,共3页
为了获得尽可能高的并行计算单元的计算能力,对SIMD图像处理机的存储系统进行了深入研究.该存储系统根据图像处理应用的特点,使用基于编译获得的数据流存取全局信息进行数据流调度,有效地提高了数据存取的速度,满足了并行计算单元对数... 为了获得尽可能高的并行计算单元的计算能力,对SIMD图像处理机的存储系统进行了深入研究.该存储系统根据图像处理应用的特点,使用基于编译获得的数据流存取全局信息进行数据流调度,有效地提高了数据存取的速度,满足了并行计算单元对数据存取速度的要求,为SIMD图像处理机系统性能的提高提供了支持. 展开更多
关键词 阵列处理器 协处理器 流调度 双缓冲区 simd
下载PDF
用SIMD计算机执行MIMD
10
作者 曾国荪 《江西师范大学学报(自然科学版)》 CAS 1993年第2期133-136,165,共5页
SIMD计算机不能直接执行MIMD语言,但通过SIMD解释程序器能够执行,这个解释程序器克服了只允许单指令流的SIMD限制,将MIMD的进程当做解释程序器的数据(SIMD中的MD),而解释程序器本身是一个单指令流.应用于MIMD程序的SIMD解释程序器运行,... SIMD计算机不能直接执行MIMD语言,但通过SIMD解释程序器能够执行,这个解释程序器克服了只允许单指令流的SIMD限制,将MIMD的进程当做解释程序器的数据(SIMD中的MD),而解释程序器本身是一个单指令流.应用于MIMD程序的SIMD解释程序器运行,速度取决于解释程序器中Loop的组织,并且组织的优化又取决于MIMD程序的执行.本文通过引入Markov链模型,给出一个自适应算法,对在解释程序器Loop中的原始指令进行动态优比排序,即重新组织,使代码执行效率提高. 展开更多
关键词 单指令多数据 计算机 多指令多数据
下载PDF
SIMD非对齐访存结构设计与实现 被引量:3
11
作者 余成龙 王永文 《计算机工程》 CAS CSCD 北大核心 2016年第9期1-4,共4页
单指令流多数据流(SIMD)是实现数据级并行的有效方法,但访问地址非对齐的数据严重影响程序的向量化,造成处理器性能下降。为降低非对齐访存延时,对高性能应用程序的访存结构进行建模,设计并实现SIMD分离缓冲行非对齐访存结构与双体cach... 单指令流多数据流(SIMD)是实现数据级并行的有效方法,但访问地址非对齐的数据严重影响程序的向量化,造成处理器性能下降。为降低非对齐访存延时,对高性能应用程序的访存结构进行建模,设计并实现SIMD分离缓冲行非对齐访存结构与双体cache非对齐访存结构。实验结果表明,在双体cache非对齐访存结构下,通过两数组相加与SIMD向量化实现的非对齐访存代码可达到对齐访存代码性能的99%,提高了SIMD向量化的访存效率。 展开更多
关键词 高性能计算 数据级并行 向量化 单指令流多数据流扩展 非对齐访存 Gem5模拟器
下载PDF
SIMD计算机的优化编译器设计 被引量:2
12
作者 赵辉 黄石 《计算机工程》 CAS CSCD 北大核心 2009年第1期201-203,206,共4页
利用处理器的相关资源,提高编译器优化性能和增强代码可适应性是SIMD处理器优化编译的关键。该文基于M语言和LSSIMD体系结构,结合现代编译器的编译技术,提出针对SIMD协处理器编译器的优化和实现方法,包括寄存器分配、单值合并、代码压... 利用处理器的相关资源,提高编译器优化性能和增强代码可适应性是SIMD处理器优化编译的关键。该文基于M语言和LSSIMD体系结构,结合现代编译器的编译技术,提出针对SIMD协处理器编译器的优化和实现方法,包括寄存器分配、单值合并、代码压缩等。实验结果表明,编译生成的目标代码准确、高效。 展开更多
关键词 M语言 LS simd协处理器 编译器
下载PDF
基于SIMD的并行傅里叶空间图像相似度计算 被引量:3
13
作者 郭渝洛 边浩东 +3 位作者 董润婷 唐嘉豪 王晓英 黄建强 《计算机工程》 CAS CSCD 北大核心 2021年第11期247-253,共7页
在冷冻电镜三维重建计算模型中,傅里叶空间图像相似度算法被频繁调用,大量的计算开销导致模型整体运行速度变慢。针对该问题,提出一种基于SIMD的并行傅里叶空间图像相似度算法。通过手动负载均衡方式最大化CPU的线程使用率,添加AVX-512... 在冷冻电镜三维重建计算模型中,傅里叶空间图像相似度算法被频繁调用,大量的计算开销导致模型整体运行速度变慢。针对该问题,提出一种基于SIMD的并行傅里叶空间图像相似度算法。通过手动负载均衡方式最大化CPU的线程使用率,添加AVX-512指令集增强CPU矢量寄存器的作用,同时设计高效的数据结构提升内存访问效率。在Intel Xeon Platinum 9242平台上的实验结果表明,与原始的OpenMP并行模型相比,经该算法优化后的程序可获得平均5.132倍的加速比,并且具有较强的鲁棒性。 展开更多
关键词 冷冻电镜 负载均衡 缓存 单指令多数据流矢量化 傅里叶空间 图像相似度计算 并行计算
下载PDF
分簇VLIW DSP上支持单双字模式选择的SIMD编译优化 被引量:2
14
作者 黄胜兵 郑启龙 郭连伟 《计算机应用》 CSCD 北大核心 2015年第8期2371-2374,共4页
BWDSP100是一款采用超长指令字(VLIW)和单指令多数据流(SIMD)架构的针对高性能计算领域而设计的32位静态标量数字信号处理器,其指令级并行(ILP)主要是通过其特殊的分簇体系结构和SIMD指令来实现,然而现有的编译框架无法对这些特殊的SIM... BWDSP100是一款采用超长指令字(VLIW)和单指令多数据流(SIMD)架构的针对高性能计算领域而设计的32位静态标量数字信号处理器,其指令级并行(ILP)主要是通过其特殊的分簇体系结构和SIMD指令来实现,然而现有的编译框架无法对这些特殊的SIMD指令提供支持。由于BWDSP100拥有丰富的SIMD向量化资源,且其所运用的雷达数字信号处理领域对程序的性能要求极高,因此针对BWDSP100结构的特点,在传统Open64编译器中SIMD编译优化框架的基础上提出并实现了一种支持单双字模式选择的SIMD编译优化算法,通过该算法可以显著提高一些在DSP上有着广泛运用计算密集型程序的性能。实验结果表明,与优化前相比,该算法方案在BWDSP编译器上的实现能够平均取得5.66的加速比。 展开更多
关键词 编译优化 指令级并行 分簇体系数字信号处理器 超长指令字 单指令多数据流 Open64编译器
下载PDF
软件SIMD的研究及应用 被引量:1
15
作者 卜士喜 竺红卫 《计算机工程》 CAS CSCD 北大核心 2010年第19期53-55,共3页
介绍软件SIMD技术,在不支持SIMD架构的处理器上使用该技术实现寄存器高低字节的并行运算,提高处理器的速度。软件SIMD包括基本的加减法运算、乘法运算和点积运算。在现有研究的基础上,解决包含负数的点积运算、复数运算中应用软件SIMD... 介绍软件SIMD技术,在不支持SIMD架构的处理器上使用该技术实现寄存器高低字节的并行运算,提高处理器的速度。软件SIMD包括基本的加减法运算、乘法运算和点积运算。在现有研究的基础上,解决包含负数的点积运算、复数运算中应用软件SIMD技术的问题,使其能广泛应用于数字信号处理等领域。 展开更多
关键词 单指令多数据流 软件simd 并行运算 数字信号处理
下载PDF
EDO-SIMD:内嵌数据组织的SIMD多媒体扩展指令集
16
作者 刘坤杰 秦兴 +2 位作者 严晓浪 李德贤 彭剑英 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2008年第4期565-570,共6页
针对单指令多数据(SIMD)并行多媒体扩展在图像和视频等媒体应用中数据组织和存取等非有效计算开销过大的问题,采用嵌入式处理器面向应用定制指令集的设计思路,通过将数据组织与计算或存取相融合,设计了内嵌数据组织和可变长向量存取两... 针对单指令多数据(SIMD)并行多媒体扩展在图像和视频等媒体应用中数据组织和存取等非有效计算开销过大的问题,采用嵌入式处理器面向应用定制指令集的设计思路,通过将数据组织与计算或存取相融合,设计了内嵌数据组织和可变长向量存取两类特殊扩展指令,并与其他基本指令构成了EDO-SIMD(embedded data organi-zation SIMD)多媒体扩展指令集.性能测试结果表明,EDO-SIMD指令体系可显著降低典型媒体应用核心的非有效计算开销,并提高数据级并行效率. 展开更多
关键词 多媒体处理 单指令多数据 内嵌数据组织
下载PDF
Blocking optimized SIMD tree search on modern processors 被引量:2
17
作者 张倬 陆宇凡 +2 位作者 沈文枫 徐炜民 郑衍衡 《Journal of Shanghai University(English Edition)》 CAS 2011年第5期437-444,共8页
Tree search is a widely used fundamental algorithm. Modern processors provide tremendous computing power by integrating multiple cores, each with a vector processing unit. This paper reviews some studies on exploiting... Tree search is a widely used fundamental algorithm. Modern processors provide tremendous computing power by integrating multiple cores, each with a vector processing unit. This paper reviews some studies on exploiting single instruction multiple date (SIMD) capacity of processors to improve the performance of tree search, and proposes several improvement methods on reported SIMD tree search algorithms. Based on blocking tree structure, blocking for memory alignment and dynamic blocking prefetch are proposed to optimize the overhead of memory access. Furthermore, as a way of non-linear loop unrolling, the search branch unwinding shows that the number of branches can exceed the data width of SIMD instructions in the SIMD search algorithm. The experiments suggest that blocking optimized SIMD tree search algorithm can achieve 1.6 times response speed faster than the un-optimized algorithm. 展开更多
关键词 single instruction multiple date (simd tree search binary search streaming simd extensions (SSE) Cell broadband engine (BE)
下载PDF
基于SIMD结构的矩形行列式并行算法研究
18
作者 王艾昕 《计算机工程与应用》 CSCD 2012年第25期48-51,56,共5页
在运用行列式Schur余子式算法的理论基础上,提出了对SIMD结构的并行机,可适用于对行列式按行分块并行处理算法,把一个n阶行列式的求值过程分解成相对独立的若干个二阶行列式的求值过程,而且它们的求值过程是相对独立的,具有并行性,从而... 在运用行列式Schur余子式算法的理论基础上,提出了对SIMD结构的并行机,可适用于对行列式按行分块并行处理算法,把一个n阶行列式的求值过程分解成相对独立的若干个二阶行列式的求值过程,而且它们的求值过程是相对独立的,具有并行性,从而设计出n阶行列式求值的并行算法。给出了该算法的实现步骤,分析了算法的加速比;对算法进行了模拟实验,结果说明了其性能。 展开更多
关键词 单指令多数据流 并行计算机 并行算法 加速比
下载PDF
ALGORITHMS AND ARCHITECTURE IMPLEMENTATIONS OF MIMO OFDM BASEBAND RECEIVER BASED ON THE SIMD DSP CORE 被引量:1
19
作者 Hao Xuefei Chen Jie +1 位作者 Zhao Danfeng Zhou Chaoxian 《Journal of Electronics(China)》 2006年第5期763-768,共6页
This letter presents a programmable single-chip architecture for Multi-Input and Multi-Output (MIMO) OFDM baseband receiver. The architecture comprises a Single Instruction Multiple Data (SIMD) DSP core and three copr... This letter presents a programmable single-chip architecture for Multi-Input and Multi-Output (MIMO) OFDM baseband receiver. The architecture comprises a Single Instruction Multiple Data (SIMD) DSP core and three coprocessors that are used for synchronization, FFT and channel decoder. In this MIMO OFDM system, the Zero Correlation Zone (ZCZ) code is used as the synchronization word preamble of packet in the physical layer in order to avoid the interference from other transmitting antennas. Furthermore, a simple channel estimation algorithm is proposed which is appropriate for the SIMD DSP computation. 展开更多
关键词 多重输入 多重输出 基带接受器 零相关区域编码 单一指令多重数据
下载PDF
SIMD并行运算的参考图像组织方法 被引量:1
20
作者 李学渊 《传感技术学报》 EI CAS CSCD 北大核心 2006年第1期183-186,共4页
从单指令多数据并行运算的角度出发,将面向对象的思想引入到SAD值计算的并行操作过程中,给出了一种改进的图像组织优化算法,通过对多个标准测试序列进行运动预测的测试结果知,在当前最复杂的视频编码H.264/AVC上,该算法的实施可以明显... 从单指令多数据并行运算的角度出发,将面向对象的思想引入到SAD值计算的并行操作过程中,给出了一种改进的图像组织优化算法,通过对多个标准测试序列进行运动预测的测试结果知,在当前最复杂的视频编码H.264/AVC上,该算法的实施可以明显地提高编码器的编码速度,为实现窄带中的实时视频通信提供了保障。 展开更多
关键词 单指令多数据 帧问编码 并行运算 运动预测
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部