期刊文献+
共找到154篇文章
< 1 2 8 >
每页显示 20 50 100
x86处理器向量条件访存指令安全脆弱性分析
1
作者 李丹萍 朱子元 +1 位作者 史岗 孟丹 《计算机学报》 EI CAS CSCD 北大核心 2024年第3期525-543,共19页
单指令多数据流(Single Instruction stream,Multiple Data streams,SIMD)是一种利用数据级并行提高处理器性能的技术,旨在利用多个处理器并行执行同一条指令增加数据处理的吞吐量.随着大数据、人工智能等技术的兴起,人们对数据并行化... 单指令多数据流(Single Instruction stream,Multiple Data streams,SIMD)是一种利用数据级并行提高处理器性能的技术,旨在利用多个处理器并行执行同一条指令增加数据处理的吞吐量.随着大数据、人工智能等技术的兴起,人们对数据并行化处理的需求不断提高,这使得SIMD技术愈发重要.为了支持SIMD技术,Intel和AMD等x86处理器厂商从1996年开始在其处理器中陆续引入了MMX(MultiMedia Extensions)、SSE(Streaming SIMD Extensions)、AVX(Advanced Vector eXtensions)等SIMD指令集扩展.通过调用SIMD指令,程序员能够无需理解SIMD技术的硬件层实现细节就方便地使用它的功能.然而,随着熔断、幽灵等处理器硬件漏洞的发现,人们逐渐认识到并行优化技术是一柄双刃剑,它在提高性能的同时也能带来安全风险.本文聚焦于x86 SIMD指令集扩展中的VMASKMOV指令,对它的安全脆弱性进行了分析.本文的主要贡献如下:(1)利用时间戳计数器等技术对VMASKMOV指令进行了微架构逆向工程,首次发现VMASKMOV指令与内存页管理和CPU Fill Buffer等安全风险的相关性;(2)披露了一个新的处理器漏洞EvilMask,它广泛存在于Intel和AMD处理器上,并提出了3个EvilMask攻击原语:VMASKMOVL+Time(MAP)、VMASKMOVS+Time(XD)和VMASKMOVL+MDS,可用于实施去地址空间布局随机化攻击和进程数据窃取攻击;(3)给出了2个EvilMask概念验证示例(Proof-of-Concept,PoC)验证了EvilMask对真实世界的信息安全危害;(4)讨论了针对EvilMask的防御方案,指出最根本的解决方法是在硬件层面上重新实现VMASKMOV指令,并给出了初步的实现方案. 展开更多
关键词 处理器安全 单指令多数据流(SIMD) 微体系结构侧信道攻击 VMASKMOV指令 地址空间布局随机化(ASLR)
下载PDF
便笺式存储器中一种新颖的交错映射数据布局
2
作者 曾灵灵 张敦博 +1 位作者 沈立 窦强 《计算机工程》 CAS CSCD 北大核心 2024年第5期33-40,共8页
现代计算机一直沿用传统的线性数据布局模式,该模式允许对使用行主序模式存储的二维矩阵进行高效的行优先数据访问,但是增加了高效执行列优先数据访问的复杂性,造成列优先访问的空间局部性较差。改善列优先数据访存效率的常见解决方案... 现代计算机一直沿用传统的线性数据布局模式,该模式允许对使用行主序模式存储的二维矩阵进行高效的行优先数据访问,但是增加了高效执行列优先数据访问的复杂性,造成列优先访问的空间局部性较差。改善列优先数据访存效率的常见解决方案是对原始矩阵进行预先转置操作,将列优先访问的复杂性集中在一次矩阵转置运算中,然而矩阵转置不仅会引入额外的数据传输操作,而且会消耗额外的存储空间用于存储转置后的矩阵。为了在不引入额外开销的情况下使行优先与列优先数据访问具有同样高效的访存效率,提出一种新颖的交错映射(IM)数据布局,同时在不改变便笺式存储器(SPM)内部结构的基础上,在SPM的输入和输出(I/O)接口处添加循环移位单元和译码单元2个新组件,实现交错映射数据布局并定制访存指令,使程序员可通过定制的访存指令充分利用该数据布局。实验结果表明,应用交错映射数据布局的SPM在仅额外增加了1.73%面积开销的情况下获得了1.4倍的加速。 展开更多
关键词 矩阵转置 单指令多数据 便笺式存储器 数据布局 静态随机存储器
下载PDF
PEPFL:A framework for a practical and efficient privacy-preserving federated learning
3
作者 Yange Chen Baocang Wang +3 位作者 Hang Jiang Pu Duan Yuan Ping Zhiyong Hong 《Digital Communications and Networks》 SCIE CSCD 2024年第2期355-368,共14页
As an emerging joint learning model,federated learning is a promising way to combine model parameters of different users for training and inference without collecting users’original data.However,a practical and effic... As an emerging joint learning model,federated learning is a promising way to combine model parameters of different users for training and inference without collecting users’original data.However,a practical and efficient solution has not been established in previous work due to the absence of efficient matrix computation and cryptography schemes in the privacy-preserving federated learning model,especially in partially homomorphic cryptosystems.In this paper,we propose a Practical and Efficient Privacy-preserving Federated Learning(PEPFL)framework.First,we present a lifted distributed ElGamal cryptosystem for federated learning,which can solve the multi-key problem in federated learning.Secondly,we develop a Practical Partially Single Instruction Multiple Data(PSIMD)parallelism scheme that can encode a plaintext matrix into single plaintext for encryption,improving the encryption efficiency and reducing the communication cost in partially homomorphic cryptosystem.In addition,based on the Convolutional Neural Network(CNN)and the designed cryptosystem,a novel privacy-preserving federated learning framework is designed by using Momentum Gradient Descent(MGD).Finally,we evaluate the security and performance of PEPFL.The experiment results demonstrate that the scheme is practicable,effective,and secure with low communication and computation costs. 展开更多
关键词 Federated learning Partially single instruction multiple data Momentum gradient descent ELGAMAL Multi-key Homomorphic encryption
下载PDF
基于电网“Ⅰ区+”的多元协同管控系统研究 被引量:1
4
作者 袁慧涛 胡国华 +1 位作者 曾宪振 王文敬 《黑龙江电力》 CAS 2024年第2期172-178,184,共8页
结合“双碳”战略目标,分析电力系统“双高”特征问题,对现有调度自动化技术支撑体系整体架构进行梳理与思考。提出基于“Ⅰ区+”建设多元协同管控系统工作思路,通过5G无线通信采集技术拓展调控对象边界,作为Ⅰ区调度自动化系统有线采... 结合“双碳”战略目标,分析电力系统“双高”特征问题,对现有调度自动化技术支撑体系整体架构进行梳理与思考。提出基于“Ⅰ区+”建设多元协同管控系统工作思路,通过5G无线通信采集技术拓展调控对象边界,作为Ⅰ区调度自动化系统有线采集的补充,实现分布式电源、地方电厂、电动汽车、智能楼宇等多类型可调节资源的规模化接入、监视与控制。通过开展试点工作,试探多种技术路线,并形成统一推广的研究方案。目前已实现14座10 kV分布式光伏、9座地方电厂、3.6万户低压分布式光伏发电数据可观可测,并实现6座10 kV分布式光伏平滑调节与控制,以及65户低压分布式光伏发电数据可调可控。通过对新型电力系统各类资源的在线感知、智能决策和互动响应,推动现有“源随荷动”向“源网荷储协调互动”调控模式转变,促进新能源消纳,协助电网削峰填谷,提升电网安全高效、清洁低碳经济运行水平。 展开更多
关键词 新型电力系统 多元协同 管控系统 架构 数据流 新能源 源网荷储 虚拟电厂
下载PDF
面向不确定性多数据流异常检测的数学模型
5
作者 张学叶 林永强 《计算机仿真》 2024年第4期517-521,共5页
随着互联网技术的快速发展,数据流的应用日益普遍,通信平台对多数据流进行异常检测的需求也逐步增长。为了解决当前异常检测算法准确率低、特征提取难等问题,提出了一种基于网格化的多数据流异常检测算法。算法首先提取不确定性多数据... 随着互联网技术的快速发展,数据流的应用日益普遍,通信平台对多数据流进行异常检测的需求也逐步增长。为了解决当前异常检测算法准确率低、特征提取难等问题,提出了一种基于网格化的多数据流异常检测算法。算法首先提取不确定性多数据流的特征,通过分析数据流分布状态,从而提取异常数据;然后采用网格化的方法对多数据流进行划分,通过计算网格异常因子从而提取异常数据,达到异常检测的效果;最后针对异常数据,通过对变量因素进行关联性分析,降低误检率,提升异常检测的准确率。实验结果表明,所提算法在异常检测精确度方面提升了约4%,漏检率降低了至少3%,误检率降低了8%以上,有效的提高了异常检测的精确度,降低了异常数据流对工作及生活带来的负面影响。 展开更多
关键词 多数据流 异常检测 数学模型 异常因子
下载PDF
基于压缩感知的电力报装信息系统研究
6
作者 王岩 林树鸿 +1 位作者 覃岩岩 朱大智 《微型电脑应用》 2024年第5期129-131,共3页
随着用电业务的日益增多,对系统网络性能的要求也逐渐提升,为了提升电力报装系统的传输效率,通过压缩感知(CS)提升无线网络单流数据传输能力。构建以CS为基础的网络单流传输模型,设计测量矩阵,提高其重建性能,通过仿真实验证明相关理论... 随着用电业务的日益增多,对系统网络性能的要求也逐渐提升,为了提升电力报装系统的传输效率,通过压缩感知(CS)提升无线网络单流数据传输能力。构建以CS为基础的网络单流传输模型,设计测量矩阵,提高其重建性能,通过仿真实验证明相关理论内容。实验结果证实,不管是在无噪声还是有噪声的环境中,其相比于大小相同的伯努利矩阵以及高斯矩阵,提出的矩阵具有更出色的重建性能。对于电力报装系统的传输效率的提升具有一定的参考意义。 展开更多
关键词 电力报装系统 压缩感知 单流数据传输 高斯矩阵 伯努利矩阵
下载PDF
基于本地差分隐私的众包数据流真值发现方法
7
作者 王瑞鲜 《计算机应用文摘》 2024年第9期129-132,135,共5页
真值发现是解决多源数据冲突的手段,但在迭代计算的过程中会泄露隐私数据。因此,本地差分隐私以其强大的隐私保证在真值发现中得到了广泛应用。然而,现有多数研究均基于某一时刻对数据进行隐私保护。若对数据进行持续收集,可能忽略所要... 真值发现是解决多源数据冲突的手段,但在迭代计算的过程中会泄露隐私数据。因此,本地差分隐私以其强大的隐私保证在真值发现中得到了广泛应用。然而,现有多数研究均基于某一时刻对数据进行隐私保护。若对数据进行持续收集,可能忽略所要求的规模大、连续到达等特性。针对众包任务持续数据收集中的真值发现问题,文章提出了基于本地差分隐私的持续数据真值发现机制,同时考虑工人数据和真值之间的相关性,在保护用户数据隐私的同时降低了真值估计的误差。 展开更多
关键词 本地差分隐私 众包数据流 多源数据 真值发现
下载PDF
面向RISC-Ⅴ架构的目标检测算法优化
8
作者 任凭 徐学政 +1 位作者 黄安文 李琼 《智能安全》 2024年第3期21-33,共13页
目标检测是计算机视觉领域最为重要的研究方向之一,被广泛应用于智能监控、自动驾驶、医学影像分析等领域。面对层出不穷的应用场景,往往需要依托特定的硬件平台部署目标检测算法,根据硬件平台的特点对目标检测算法进行优化可大大提高... 目标检测是计算机视觉领域最为重要的研究方向之一,被广泛应用于智能监控、自动驾驶、医学影像分析等领域。面对层出不穷的应用场景,往往需要依托特定的硬件平台部署目标检测算法,根据硬件平台的特点对目标检测算法进行优化可大大提高算法的推理效率。近年来,RISC-Ⅴ因其精简、开源、可定制等特点受到学术界和工业界的广泛关注,已成为继X86、ARM之后的第三大CPU架构。面向RISC-Ⅴ架构,通过程序性能分析、向量化、访存优化、循环展开等技术对目标检测算法进行优化,并在模拟器和RISC-Ⅴ开发板上进行部署测试。实验表明,相比初始版本的算法,优化版本的单线程推理效率提高了3倍以上。对RISC-Ⅴ向量扩展在优化目标检测算法中的有效性进行了验证,为后续面向RISC-Ⅴ平台的应用移植和算法优化提供了经验和参考。 展开更多
关键词 RISC-Ⅴ 目标检测 向量 单指令多数据
下载PDF
Sorting Data Elements by SOCD Using Centralized Diamond Architecture
9
作者 Masumeh Damrudi Kamal Jadidy Aval 《Computer Technology and Application》 2011年第5期374-377,共4页
Several parallel sorting techniques on different architectures have been studied for many years. Due to the need for faster systems in today's world, parallelism can be used to accelerate applications. Nowadays, para... Several parallel sorting techniques on different architectures have been studied for many years. Due to the need for faster systems in today's world, parallelism can be used to accelerate applications. Nowadays, parallel operations are used to solve computer problems such as sort and search, which result in a reasonable speed. Sorting is one of the most important operations in computing world. The authors always try to find the best in different areas which the premier is speedup. In this paper, the authors issued a sort with O(logn) time complexity on PRAM EREW (Parallel Random Access Machine Exclusive Read Exclusive Write). The algorithm is designed in a manner that keeps the tradeoff between the number of processor elements in the architecture and execution time. The simulation of the algorithm proves the theoretical analysis of the algorithm. The results of this research can be utilized in developing faster embedded systems. Sorting on Centralized Diamond (SOCD) algorithm is issued on the novel Centralized Diamond architecture which takes the advantages of Single Instruction Multiple Data (SIMD) architecture. This architecture and the sort on it are intuitive and optimal. 展开更多
关键词 Parallel sorting diamond architecture single instruction multiple data (SIMD) parallel random access machine exclusive read exclusive write (PRAM EREW) sorting on centralized diamond (SOCD).
下载PDF
面向国产高性能众核处理器的编程模型
10
作者 陈虎 周鹏灵 《计算机应用》 CSCD 北大核心 2023年第11期3517-3526,共10页
在国产高性能众核处理器上编程时,需要直接使用最底层的接口开发软件,这使编程和调试非常困难;并且各自平台的高性能软件编程模型较为基础,计算软件不能通用,造成了重复性开发。针对以上问题,实现了通用编程模型以及所对应的支撑库:一... 在国产高性能众核处理器上编程时,需要直接使用最底层的接口开发软件,这使编程和调试非常困难;并且各自平台的高性能软件编程模型较为基础,计算软件不能通用,造成了重复性开发。针对以上问题,实现了通用编程模型以及所对应的支撑库:一方面基于消息队列机制开发国产高性能众核处理器的线程级并行机制;另一方面基于单指令多数据流(SIMD)编程模型开发从核上的数据级并行性。首先,对国产高性能众核处理器体系结构进行抽象;其次,设计模型的消息队列机制,并为程序员提供一套异构并行编程接口,如系统参数接口、从核线程控制接口、消息队列接口、SIMD抽象接口;最后,在上述基础上形成全新的高性能计算软件开发模型和方法,方便用户开发基于国产高性能众核处理器的并行计算软件。性能传输测试结果表明,在国产众核处理器上,当启动核数较少时,所提模型的传输带宽普遍达到了峰值直接内存访问(DMA)带宽的90%;当启动的核数较多时,消息队列模型的传输带宽普遍达到了峰值DMA带宽的70%。在矩阵乘法实验中,与系统原语传输矩阵并计算的性能相比,所提模型的性能达到前者的90%;在口令猜测系统中,所提模型的代码性能与直接使用最底层的接口开发的代码性能基本持平。所提通用编程模型和支撑框架使高性能计算(HPC)软件开发更简易,并且具有更好的可移植性,可为促进国产自主HPC软件研发提供帮助。 展开更多
关键词 国产众核处理器 单指令多数据流 并行编程模型 SW26010 消息队列模型
下载PDF
基于CPU与GPU的异构模板计算优化研究 被引量:4
11
作者 李博 黄东强 +3 位作者 贾金芳 吴利 王晓英 黄建强 《计算机工程》 CAS CSCD 北大核心 2023年第4期131-137,共7页
模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基... 模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基础上提出MPI+OpenMP、统一计算设备架构(CUDA)+OpenMP两种混合计算模型。相较于常规的MPI计算模型,MPI+OpenMP计算模型通过使用MPI进行多节点之间的粗粒度通信,使用OpenMP实现进程内部的细粒度并行计算,并结合单指令多数据、非一致内存访问、数据预取、数据分块等技术,提高模板计算过程中的缓存命中率与计算并行能力,加快计算速度。在只采用CUDA进行模板计算时,CPU的计算资源没有得到充分利用,浪费了大量计算资源,CUDA+OpenMP计算模型通过对计算任务的负载划分让CPU也参与到计算中,以减少通信开销及充分利用CPU的多核并行计算能力。实验结果表明,OpenMP+MPI计算模型相较于MPI计算模型的平均加速比为3.67,CUDA+OpenMP计算模型相较于CUDA计算模型的平均加速比为1.26,OpenMP+MPI和CUDA+OpenMP两种计算模型的性能均得到了显著提升。 展开更多
关键词 模板计算 消息传递接口 跨平台多线程 单指令多数据 非一致内存访问 统一计算设备架构
下载PDF
基于多核CPU的DVB-RCS2并行Turbo译码方法 被引量:1
12
作者 翟绪论 张永光 +2 位作者 靳安钊 强薇 李梦冰 《计算机科学》 CSCD 北大核心 2023年第6期22-28,共7页
DVB-RCS2在卫星广播、海事卫星通信、军事卫星通信等领域有着广泛应用,而无论是通信还是军事侦察都需要大吞吐量高速译码。多核CPU算力不断提升以及软件无线电SDR平台的广泛应用,使得基于多核CPU的并行译码成为一种灵活高效的应用方式... DVB-RCS2在卫星广播、海事卫星通信、军事卫星通信等领域有着广泛应用,而无论是通信还是军事侦察都需要大吞吐量高速译码。多核CPU算力不断提升以及软件无线电SDR平台的广泛应用,使得基于多核CPU的并行译码成为一种灵活高效的应用方式。为了满足其中双二元Turbo码大吞吐量软件译码的需求,提出了一种基于多核CPU的高速并行软件译码方案。首先对比分析了双二元Turbo码与传统二进制Turbo码的计算复杂度;然后重点对并行计算过程中的内存占用和采用8比特位宽整型数据时的输入量化方法进行了分析和优化,设计了基于多核CPU并行译码的实现方案;最后在Intel 12核CPU上使用SSE并行指令集实现了大于169 Mbps的译码吞吐率,且纠错性能较浮点运算损失小于0.1 dB。通过与现有GPU译码方案对比,说明了所提方案在译码效率和能耗方面的优势,其在高速卫星接收机中具有极高的应用价值。 展开更多
关键词 DVB-RCS2 双二元Turbo码 多核CPU SIMD并行计算 高速译码
下载PDF
基于单向流模型的自适应张量链式学习算法
13
作者 马宝泽 李国军 +1 位作者 邢隆 叶昌荣 《通信学报》 EI CSCD 北大核心 2023年第8期27-36,共10页
针对单向流模型中高阶张量在线分解问题,研究了一种自适应张量链式(TT)学习算法。首先,推导出单向流增量仅改变时序TT核的维度;然后,引入遗忘因子和正则项构造指数权重最小二乘目标函数;最后,利用块坐标下降学习策略分别估计时序和非时... 针对单向流模型中高阶张量在线分解问题,研究了一种自适应张量链式(TT)学习算法。首先,推导出单向流增量仅改变时序TT核的维度;然后,引入遗忘因子和正则项构造指数权重最小二乘目标函数;最后,利用块坐标下降学习策略分别估计时序和非时序TT核。对所提算法在增量大小、TT秩、噪声和时变强度等方面分别进行了验证,结果表明,所提算法的平均相对误差和运算时间均小于对比算法,并在视频自适应分析中表现出优于对比算法的张量切片重构能力。 展开更多
关键词 自适应学习算法 张量链式分解 单向流模型 泛在数据流
下载PDF
POF交换机查表预处理性能优化方法
14
作者 凌致远 陈晓 宋磊 《网络新媒体技术》 2023年第6期21-27,共7页
协议无感知转发技术的出现使软件定义网络数据面的可编程能力和可扩展性得到了进一步增强,已有的工作聚焦于匹配动作表的查询优化,包括查表算法的优化和整体流程的加速等。但在基于多级匹配动作表设计的数据包转发流水线中,查表前数据... 协议无感知转发技术的出现使软件定义网络数据面的可编程能力和可扩展性得到了进一步增强,已有的工作聚焦于匹配动作表的查询优化,包括查表算法的优化和整体流程的加速等。但在基于多级匹配动作表设计的数据包转发流水线中,查表前数据包匹配域字段的提取工作会消耗较多的时间,在匹配域复杂的场景下甚至与查表时间相当,这成为了降低交换机转发延迟的瓶颈。为了解决上述问题,我们在POF软件交换机中使用单指令多数据流技术对查表预处理阶段的查表关键字提取流程进行加速。实验结果表明,加速方案使交换机的平均转发延迟降低了12%-38%。 展开更多
关键词 软件定义网络 协议无感知转发 单指令多数据流 查表预处理 高性能转发
下载PDF
面向流数据的多离群点检测算法研究 被引量:1
15
作者 安云哲 吴东翰 +2 位作者 夏秀峰 周大海 朱睿 《河南科技学院学报(自然科学版)》 2023年第1期48-57,共10页
离群点检测是数据管理领域中的一个重要问题,在信用卡欺诈检测、工业工程过程管理、银行数据处理等方面等均有广泛应用.大数据时代的到来加剧了对大规模流媒体数据进行离群点检测多样化的需求,不同用户可根据自身偏好选择不同类型的数... 离群点检测是数据管理领域中的一个重要问题,在信用卡欺诈检测、工业工程过程管理、银行数据处理等方面等均有广泛应用.大数据时代的到来加剧了对大规模流媒体数据进行离群点检测多样化的需求,不同用户可根据自身偏好选择不同类型的数据作为离群点.针对流数据环境下多离群点检测问题,提出了一种查询处理框架MQOD(Multiple Query of Outlier Detection),利用多查询任务之间的包含关系来支持多离群点检测任务,从而提高查询效率.在MQOD框架下,构建了HT-Grid索引以支持流数据的管理,利用滑动窗口的时间特性对窗口进行划分,并根据划分结果确定执行查询的范围,减少不必要的对象访问.通过真实数据集和合成数据集对MQOD算法进行了验证,验证结果表征了算法的高效性. 展开更多
关键词 流数据 离群点检测 多查询任务 HT-Grid索引 滑动窗口
下载PDF
A TSE based design for MMSE and QRD of MIMO systems based on ASIP
16
作者 冯雪林 SHI Jinglin +3 位作者 CHEN Yang FU Yanlu ZHANG Qineng XIAO Feng 《High Technology Letters》 EI CAS 2023年第2期166-173,共8页
A Taylor series expansion(TSE) based design for minimum mean-square error(MMSE) and QR decomposition(QRD) of multi-input and multi-output(MIMO) systems is proposed based on application specific instruction set process... A Taylor series expansion(TSE) based design for minimum mean-square error(MMSE) and QR decomposition(QRD) of multi-input and multi-output(MIMO) systems is proposed based on application specific instruction set processor(ASIP), which uses TSE algorithm instead of resource-consuming reciprocal and reciprocal square root(RSR) operations.The aim is to give a high performance implementation for MMSE and QRD in one programmable platform simultaneously.Furthermore, instruction set architecture(ISA) and the allocation of data paths in single instruction multiple data-very long instruction word(SIMD-VLIW) architecture are provided, offering more data parallelism and instruction parallelism for different dimension matrices and operation types.Meanwhile, multiple level numerical precision can be achieved with flexible table size and expansion order in TSE ISA.The ASIP has been implemented to a 28 nm CMOS process and frequency reaches 800 MHz.Experimental results show that the proposed design provides perfect numerical precision within the fixed bit-width of the ASIP, higher matrix processing rate better than the requirements of 5G system and more rate-area efficiency comparable with ASIC implementations. 展开更多
关键词 multi-input and multi-output(MIMO) minimum mean-square error(MMSE) QR decomposition(QRD) Taylor series expansion(TSE) application specific instruction set processor(ASIP) instruction set architecture(ISA) single instruction multiple data(SIMD) very long instruction word(VLIW)
下载PDF
SM4字节切片高性能实现
17
作者 龚子睿 郭华 +2 位作者 陈晨 张宇轩 关振宇 《网络空间安全科学学报》 2023年第3期86-96,共11页
SM4是中国自主研发的对称密码算法,目前广泛应用于国家政府部门,但其性能问题制约着算法进一步的推广和应用。在现有S盒研究基础上考虑了线性变换L的结构特点,将计算S盒过程中的仿射变换融合至线性变换中,进而提出了新的SM4函数结构。... SM4是中国自主研发的对称密码算法,目前广泛应用于国家政府部门,但其性能问题制约着算法进一步的推广和应用。在现有S盒研究基础上考虑了线性变换L的结构特点,将计算S盒过程中的仿射变换融合至线性变换中,进而提出了新的SM4函数结构。相比于原始的函数结构,提出的新结构在字节切片的适配性上更优,并基于该新结构提出了一种SM4字节切片优化方法,可降低线性部分的开销、提升指令吞吐率。使用GFNI指令集和AES-NI指令集分别实现本文提出的SM4字节切片优化方法,在消耗的指令条数和指令吞吐率方面均优于采用相同指令集的优化方法。实验结果表明,所提出的优化方法采用GFNI指令集的实现速率最高可达到35 947 Mbps,优于公开文献的最好结果30 026 Mbps。在不支持GFNI的处理器上,优化方法可使用AES-NI指令集实现,可以达到5 410 Mbps,因此具备一定的通用性。 展开更多
关键词 SM4算法 软件优化实现 字节切片 单指令多数据技术 GFNI指令集
下载PDF
计算机体系结构的分类模型 被引量:10
18
作者 沈绪榜 张发存 +2 位作者 冯国臣 车得亮 王光 《计算机学报》 EI CSCD 北大核心 2005年第11期1759-1766,共8页
根据计算机体系结构的发展,以指令流(instruction stream)计算、数据流(data stream)计算与构令流(configuration stream)计算的概念为基础,提出了一种新的计算机体系结构的分类模型.
关键词 指令流 数据流 构令流 软件 构件 流件 体系结构
下载PDF
计算机体系结构的统一模型 被引量:17
19
作者 沈绪榜 刘泽响 王茹 《计算机学报》 EI CSCD 北大核心 2007年第5期729-736,共8页
提出了一种计算机体系结构的统一模型,将基于数据流计算与基于构令流计算的体系结构统一到基于指令流计算的体系结构上来,命名为Unified-ISA模型.使基于数据流计算的ASIC电路与基于构令流计算的RCDevice电路的设计,统一为基于指令流计算... 提出了一种计算机体系结构的统一模型,将基于数据流计算与基于构令流计算的体系结构统一到基于指令流计算的体系结构上来,命名为Unified-ISA模型.使基于数据流计算的ASIC电路与基于构令流计算的RCDevice电路的设计,统一为基于指令流计算的SIMD PE阵列上的程序设计. 展开更多
关键词 PE阵列 数据流 指令流 时间映射 空间映射
下载PDF
分布式多数据流频繁伴随模式挖掘 被引量:11
20
作者 于自强 禹晓辉 +1 位作者 董吉文 王琳 《软件学报》 EI CSCD 北大核心 2019年第4期1078-1093,共16页
多数据流频繁伴随模式是指一组对象较短时间内在同一个数据流上伴随出现,并在之后一段时间以同样方式出现在其他多个数据流上.现实生活中,城市交通监控系统中的伴随车辆发现、基于签到数据的伴随人群发现、基于社交网络数据中的高频伴... 多数据流频繁伴随模式是指一组对象较短时间内在同一个数据流上伴随出现,并在之后一段时间以同样方式出现在其他多个数据流上.现实生活中,城市交通监控系统中的伴随车辆发现、基于签到数据的伴随人群发现、基于社交网络数据中的高频伴随词组发现热点事件等应用都可以归结为多数据流频繁伴随模式发现问题.由于数据流规模巨大且到达速度快,基于单机的集中式挖掘算法受到硬件资源的限制难以及时发现海量数据流中出现的频繁伴随模式.为此,提出面向大规模数据流频繁伴随模式发现的分布式挖掘算法.该算法首先将每个数据流划分成若干个segment片段,然后构建适合部署在分布式计算平台上的多层挖掘模型,并利用多计算节点以并行方式对大规模数据流进行处理,从而实时发现频繁伴随模式.最后,在真实数据集上进行充分实验以验证算法性能. 展开更多
关键词 多数据流 频繁伴随模式 分布式挖掘算法
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部