期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
面向异构众核从核的数学函数库访存优化方法 被引量:6
1
作者 许瑾晨 郭绍忠 +1 位作者 黄永忠 王磊 《计算机科学》 CSCD 北大核心 2014年第6期12-17,共6页
数学库函数算法的特性致使函数存在大量的访存,而当前异构众核的从核结构采用共享主存的方式实现数据访问,从而严重影响了从核的访存速度,因此异构众核结构中数学库函数的性能无法满足高性能计算的要求。为了有效解决此问题,提出了一种... 数学库函数算法的特性致使函数存在大量的访存,而当前异构众核的从核结构采用共享主存的方式实现数据访问,从而严重影响了从核的访存速度,因此异构众核结构中数学库函数的性能无法满足高性能计算的要求。为了有效解决此问题,提出了一种基于访存指令的调度策略,亦即将访存延迟有效地隐藏于计算延迟中,以提高基于汇编实现的数学函数库的函数性能;结合动态调用方式,利用从核本地局部数据存储空间LDM(local data memory),提出了一种提高访存速度的ldm_call算法。两种优化技术在共享存储结构下具有普遍适用性,并能够有效减少函数访存开销,提高访存速度。实验表明,两种技术分别能够平均提高函数性能16.08%和37.32%。 展开更多
关键词 异构众核 数学函数库 访存优化 指令调度 局部数据储空间
下载PDF
用于DDR3访存优化的数据缓冲机制 被引量:7
2
作者 陈胜刚 付兴飞 +1 位作者 曾思 刘胜 《国防科技大学学报》 EI CAS CSCD 北大核心 2017年第6期39-44,共6页
为提高DDR3控制器访存效率,设计了基于DDR3存储器预取访问数据长度的数据缓冲机制,将访存请求分为三种基本类型并分别排队处理,降低数据丢弃和实际动态随机访问存储器访问发生次数。针对图像和视频类应用程序的实验结果表明,相对于传统... 为提高DDR3控制器访存效率,设计了基于DDR3存储器预取访问数据长度的数据缓冲机制,将访存请求分为三种基本类型并分别排队处理,降低数据丢弃和实际动态随机访问存储器访问发生次数。针对图像和视频类应用程序的实验结果表明,相对于传统先到先服务的DDR3访存控制器,该机制取得了平均21.3%、最好51.3%的性能提升,硬件开销在可接受范围内。 展开更多
关键词 DDR3控制器 访存优化 数据缓冲
下载PDF
卷积神经网络训练访存优化 被引量:3
3
作者 王吉军 郝子宇 李宏亮 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2020年第2期98-107,共10页
虽然批归一化算法能有效加速深度卷积网络模型的收敛速度,但其数据依赖性复杂,训练时会导致严重的“存储墙”瓶颈。故对使用批归一化算法的卷积神经网络,提出多层融合且重构批归一化层的训练方法,减少模型训练过程中的访存量。首先,通... 虽然批归一化算法能有效加速深度卷积网络模型的收敛速度,但其数据依赖性复杂,训练时会导致严重的“存储墙”瓶颈。故对使用批归一化算法的卷积神经网络,提出多层融合且重构批归一化层的训练方法,减少模型训练过程中的访存量。首先,通过分析训练时批归一化层的数据依赖、访存特征及模型训练时的访存特征,分析访存瓶颈的关键因素;其次,使用“计算换访存”思想,提出融合“卷积层+批归一化层+激活层”结构的方法,并基于批归一化层的计算访存特征,将其重构为两个子层,分别与相邻层融合,进一步减少训练时对主存的读写,并构建了训练时的访存量模型与计算量模型。实验结果表明,使用NVIDIA TESLA V100 GPU训练ResNet-50、Inception V3及DenseNet模型时,同原始训练方法相比,其访存数据量分别降低了33%,22%及31%,V100的实际计算效率分别提升了20.5%,18.5%以及18.1%。这种优化方法利用了网络结构与模型训练时的访存特点,可与其他访存优化方法协同使用,进一步降低模型训练时的访存量。 展开更多
关键词 深度卷积神经网络 模型训练 多层融合 批归一化重构 访存优化
下载PDF
天体物理成团研究中的非规则访存优化 被引量:1
4
作者 郝赫 司雨蒙 +2 位作者 韦建文 文敏华 林新华 《计算机科学与探索》 CSCD 北大核心 2017年第1期80-90,共11页
HGGF(halo-based galaxy group finder)算法实现了基于暗物质晕的星系找群,在研究宇宙大尺度结构及宇宙的演化等领域中占有至关重要的地位。但由于数据规模的增长,急需对HGGF算法进行优化,以缩短运行时间。经分析,算法的热点部分耗时受... HGGF(halo-based galaxy group finder)算法实现了基于暗物质晕的星系找群,在研究宇宙大尺度结构及宇宙的演化等领域中占有至关重要的地位。但由于数据规模的增长,急需对HGGF算法进行优化,以缩短运行时间。经分析,算法的热点部分耗时受到非规则访存的严重影响,因此针对算法的结构和非规则访存模型,提出了数据预排序方法,并分析了该方法如何影响访存过程。在此基础上,利用数据对齐、循环分解进一步优化访存效率,利用负载均衡和互斥变量私有化的方法提高了Open MP的并行效率,最终将HGGF应用使用12线程加速11.6倍,同时取得了更好的可扩展性。主要有三点贡献:(1)分析了HGGF算法的非规则访存问题;(2)提出并分析了数据预排序方法;(3)使用数据对齐、循环分解、负载均衡、互斥变量私有化方法提高了HGGF应用的并行性能。 展开更多
关键词 天体物理成团 非规则访存优化 数据预排序 并行计算
下载PDF
基于NUMA架构的解释器访存优化设计与实现
5
作者 任彤 傅杰 靳国杰 《高技术通讯》 CAS CSCD 北大核心 2015年第7期661-668,共8页
为了提高非一致内存访问(NUMA)架构虚拟机解释器的访存性能,研究了解释器在NUMA架构下的访存优化技术,提出了一种NUMA架构下的解释器访存优化方案,而且设计并实现了解释器的静态指令分派优化方法和动态指令分派优化方法。根据这一方案... 为了提高非一致内存访问(NUMA)架构虚拟机解释器的访存性能,研究了解释器在NUMA架构下的访存优化技术,提出了一种NUMA架构下的解释器访存优化方案,而且设计并实现了解释器的静态指令分派优化方法和动态指令分派优化方法。根据这一方案虚拟机启动时首先获取NUMA节点信息,并在每个NUMA节点中自动生成解释器所需的全部数据结构;解释器在运行时,通过静态或动态的指令分派技术来实现其执行线程在NUMA节点上访存的局部化。试验结果表明,上述方法能够显著提升解释器在NUMA系统中的性能。在DaCapo测试集上的总体性能提升了8%,最高性能提升幅度高达23%,而且算法实现代价低,适用于绝大多数的NUMA服务器系统。 展开更多
关键词 非一致内访问(NUMA) 虚拟机 解释器 响应速度 启动性能 访存优化
下载PDF
GeoEast处理模块面向海量数据生产的访存优化 被引量:2
6
作者 杨志昱 薛贵仁 +1 位作者 张旭东 王嘉琪 《石油工业计算机应用》 2018年第2期23-26,共4页
近年来地震勘探技术在两宽一高、多波多分量、海洋勘探等方面取得了长足的发展,同时也导致了地震数据量的爆炸式增长。据统计,在过去12年里,单位勘探面积的地震数据量增长超过了35倍。面对海量数据的生产,GeoEast处理软件的计算效率面... 近年来地震勘探技术在两宽一高、多波多分量、海洋勘探等方面取得了长足的发展,同时也导致了地震数据量的爆炸式增长。据统计,在过去12年里,单位勘探面积的地震数据量增长超过了35倍。面对海量数据的生产,GeoEast处理软件的计算效率面临前所未有的压力,虽然借助于大规模集成电路的发展,处理器的计算能力有了飞速的提高,但存储性能却逐步成为计算机性能提高的瓶颈,在计算机系统中,存储性能是程序访存特征和特定的存储结构共同作用的结果,借助于对计算机存储体系结构的充分理解和挖掘,通过对现有软件的访存优化是提高处理软件计算性能的重要途径之一。 展开更多
关键词 海量数据 地震勘探 访存优化
下载PDF
基于数据表精简算法的超越函数访存优化方法 被引量:1
7
作者 孟虹松 郭绍忠 +2 位作者 许谨晨 王磊 张乾坤 《信息工程大学学报》 2019年第3期328-334,共7页
高性能计算机平台的超越函数由于采用查表与多项式结合算法,性能深受“存储墙”问题的影响,函数绝大部分执行时间消耗集中于访存操作。为有效解决此问题,提出基于数据表精简算法的超越函数访存优化方法。将该方法应用于Mlib基础数学库,... 高性能计算机平台的超越函数由于采用查表与多项式结合算法,性能深受“存储墙”问题的影响,函数绝大部分执行时间消耗集中于访存操作。为有效解决此问题,提出基于数据表精简算法的超越函数访存优化方法。将该方法应用于Mlib基础数学库,对库中的超越函数进行测试。测试结果表明,该方法能够有效对超越函数进行访存优化,函数性能平均提升55.06%,验证该访存优化方法的高效性和实用性。 展开更多
关键词 储墙问题 超越函数 访存优化 数据表精简 转指令
下载PDF
面向Android系统库文件访存的汇编优化策略 被引量:1
8
作者 曹越 《测控技术》 CSCD 2016年第1期113-117,126,共6页
以自主嵌入式处理器为平台,对Android系统性能进行分析。通过Oprofile工具采集Android系统下的访存热点函数,结合处理器架构特点,并充分考虑传统Cache特性,重点针对Android系统的Bionic C库及Libcutils库中的热点访存函数提出优化算法... 以自主嵌入式处理器为平台,对Android系统性能进行分析。通过Oprofile工具采集Android系统下的访存热点函数,结合处理器架构特点,并充分考虑传统Cache特性,重点针对Android系统的Bionic C库及Libcutils库中的热点访存函数提出优化算法进行汇编优化。实验表明:优化后的Bionic C库和Libcutils库与优化前相比,访存带宽分别提升8.91%和12.3%,系统性能分别提升1.54%和3.81%;Android系统整体性能提升5.35%。 展开更多
关键词 安卓 访存优化 BIONIC C库 Libcutils库
下载PDF
以访存为中心的阵列众核处理器核心流水线设计 被引量:2
9
作者 张昆 郑方 谢向辉 《计算机工程与科学》 CSCD 北大核心 2017年第12期2167-2175,共9页
传统的流水线设计是以转移指令为中心的,大量逻辑资源被用于提高处理器转移预测的能力,以保证向流水线发射和执行部件提供充足的指令流。在阵列众核处理器中提出了一种以访存为中心的核心流水线设计。通过提高访存装载指令在流水线中的... 传统的流水线设计是以转移指令为中心的,大量逻辑资源被用于提高处理器转移预测的能力,以保证向流水线发射和执行部件提供充足的指令流。在阵列众核处理器中提出了一种以访存为中心的核心流水线设计。通过提高访存装载指令在流水线中的执行优先级,以及访存装载指令的预测执行机制,可以有效减少顺序流水线因访存延迟所带来的停顿,提高流水线性能和能效比。测试结果表明,以4KB容量的装载指令访存地址表为例,访存为中心的流水线设计可以带来8.6%的流水线性能提升和7%的流水线能效比提高。 展开更多
关键词 众核处理器 核心流水线 访存优化 阵列众核
下载PDF
swLLVM:面向神威新一代超级计算机的优化编译器
10
作者 沈莉 周文浩 +5 位作者 王飞 肖谦 武文浩 张鲁飞 安虹 漆锋滨 《软件学报》 EI CSCD 北大核心 2024年第5期2359-2378,共20页
异构众核架构具有超高的能效比,已成为超级计算机体系结构的重要发展方向.然而,异构系统的复杂性给应用开发和优化提出了更高要求,其在发展过程中面临好用性和可编程性等众多技术挑战.我国自主研制的神威新一代超级计算机采用了国产申... 异构众核架构具有超高的能效比,已成为超级计算机体系结构的重要发展方向.然而,异构系统的复杂性给应用开发和优化提出了更高要求,其在发展过程中面临好用性和可编程性等众多技术挑战.我国自主研制的神威新一代超级计算机采用了国产申威异构众核处理器SW26010Pro.为了发挥新一代众核处理器的性能优势,支撑新兴科学计算应用的开发和优化,设计并实现面向SW26010Pro平台的优化编译器swLLVM.该编译器支持Athread和SDAA双模态异构编程模型,提供多级存储层次描述及向量操作扩展,并且针对SW26010Pro架构特点实现控制流向量化、基于代价的节点合并以及针对多级存储层次的编译优化.测试结果表明,所设计并实现的编译优化效果显著,其中,控制流向量化和节点合并优化的平均加速比分别为1.23和1.11,而访存相关优化最高可获得2.49倍的性能提升.最后,使用SPEC CPU2006标准测试集从多个维度对swLLVM进行了综合评估,相较于SWGCC的相同优化级别,swLLVM整型课题性能平均下降0.12%,浮点型课题性能平均提升9.04%,整体性能平均提升5.25%,编译速度平均提升79.1%,代码尺寸平均减少1.15%. 展开更多
关键词 异构众核 编译系统 编程模型 储层次 向量化 节点合并 访存优化
下载PDF
Canny边缘检测算法在飞腾平台上的实现与优化 被引量:6
11
作者 郭恒亮 柴晓楠 +2 位作者 韩林 赫晓慧 商建东 《计算机工程》 CAS CSCD 北大核心 2021年第7期37-43,共7页
为实现国产飞腾DSP平台对底层图像库的支持,针对原始Canny边缘检测算法计算时间过长的问题,设计一种面向FT-M7002平台的Canny梯度计算并行算法。基于FT-M7002高性能处理架构,采用单指令流多数据流向量化方式增强DSP内核指令的并行处理能... 为实现国产飞腾DSP平台对底层图像库的支持,针对原始Canny边缘检测算法计算时间过长的问题,设计一种面向FT-M7002平台的Canny梯度计算并行算法。基于FT-M7002高性能处理架构,采用单指令流多数据流向量化方式增强DSP内核指令的并行处理能力,根据FT-M7002平台向量存储器的层次结构特征,分析Canny梯度计算并行算法的访存模式,通过首地址偏移取址解决不连续访存问题,并结合双缓冲方式完成数据传输与数据计算。实验结果表明,在与原始Canny算法具有相同检测精度的情况下,该算法在卷积核大小为3×3、5×5、7×7时整体运行速度提升了1.490~2.112倍,缩小了与主流加速器件在数字图像处理领域的性能差距。 展开更多
关键词 FT-M7002处理器 CANNY边缘检测 梯度计算并行 访存优化 双缓冲方式
下载PDF
一种简便的栈式片上内存动态管理方法 被引量:1
12
作者 刘勇 陆林生 何王全 《计算机工程与科学》 CSCD 北大核心 2010年第9期111-114,共4页
受功耗、面积的限制,高性能众核处理器倾向于将片上SRAM组织成SPM这种非Cache形式,与片外主存构成多级存储架构。这种存储架构需要软件显式管理应用程序中的数据存储和传输。为此,本文提出了一种简便的栈式片上内存动态管理方法。该方... 受功耗、面积的限制,高性能众核处理器倾向于将片上SRAM组织成SPM这种非Cache形式,与片外主存构成多级存储架构。这种存储架构需要软件显式管理应用程序中的数据存储和传输。为此,本文提出了一种简便的栈式片上内存动态管理方法。该方法首先选择应用程序中可进行访存优化的数组变量,分析这些数组变量的生存周期,根据生存周期相干情况提出一种栈式的动态片上内存管理方法,将更多的数组变量动态存储在片上内存中,同时结合数组变量的优化收益评估将那些访存密度高的变量有限布局在片上内存中。实验结果验证了该方法的有效性。 展开更多
关键词 SPM 栈式内动态分配 访存优化
下载PDF
SPM结构上冗余读延迟写优化的设计与实现
13
作者 文延华 冯冬明 尉红梅 《计算机应用与软件》 CSCD 2015年第2期10-13,共4页
随着微处理器架构的发展,将片上SRAM组织成SPM这种软件管理的非cache结构成为众多处理器的选择。SPM结构的特点是实现简单,访问延迟低、带宽高。要有效利用有限的片上SPM空间提升程序性能,必须由用户显式进行数据的布局和传送,或者由编... 随着微处理器架构的发展,将片上SRAM组织成SPM这种软件管理的非cache结构成为众多处理器的选择。SPM结构的特点是实现简单,访问延迟低、带宽高。要有效利用有限的片上SPM空间提升程序性能,必须由用户显式进行数据的布局和传送,或者由编译器进行高效的自动访存优化。冗余读延迟写优化从循环中多个主存访问之间的关联性出发,自动进行了数据传送和缓存优化,提高了SPM上的数据重用率。经过测试,可以有效提升程序性能。 展开更多
关键词 SPM 访存优化 关联性 冗余读延迟写 数据重用
下载PDF
基于ARM V8平台的向量算法库实现与优化 被引量:8
14
作者 王晶 张云泉 梁军 《计算机工程》 CAS CSCD 北大核心 2019年第6期82-88,共7页
基于ARMV8架构的VecOp向量算法库,提出一种基础向量算法在ARMV8平台上实现和优化的方案。从访存对界优化、指令集优化、基本块优化以及向量分支优化4个方面进行精细调优,提升向量算法函数在ARMV8平台上的性能,以实现VecOp算法库在ARMV8... 基于ARMV8架构的VecOp向量算法库,提出一种基础向量算法在ARMV8平台上实现和优化的方案。从访存对界优化、指令集优化、基本块优化以及向量分支优化4个方面进行精细调优,提升向量算法函数在ARMV8平台上的性能,以实现VecOp算法库在ARMV8平台上的优化。实验结果表明,该方案在ARMV8计算平台上实现的向量算法库性能提升可达到10%~300%。 展开更多
关键词 数学函数库 ARMV8架构 向量算法库 单指令流多数据 访存优化
下载PDF
计算流体力学程序单核指令级优化方法
15
作者 刘闯 何峰 +2 位作者 肖兮 董小社 张兴军 《西安交通大学学报》 EI CAS CSCD 北大核心 2018年第12期77-83,共7页
针对目前大多数计算流体力学程序对系统的单核计算能力利用不足,提出一种针对计算流体力学程序的单核指令级优化方法。该方法首先分析程序的性能指标存在潜在的性能不足,根据分析结果进行优化;依据容器的存储特性和系统的访存特性,对程... 针对目前大多数计算流体力学程序对系统的单核计算能力利用不足,提出一种针对计算流体力学程序的单核指令级优化方法。该方法首先分析程序的性能指标存在潜在的性能不足,根据分析结果进行优化;依据容器的存储特性和系统的访存特性,对程序的存储结构和访存顺序进行调整,以优化空间开销和访存性能;对CPU的流水机制进行分析,在循环和分支中消除指令的控制相关和数据相关从而达到减少流水中断率的目的;分析编译器对高级语言的处理特点并结合系统中的运行时栈在指令级作出分析,优化指令结构从而减少指令冗余和降低指令复杂度。实验结果表明,在TIANHE-1A超级计算机系统上进行测试,与优化前程序相比,优化后的程序执行时间约减少68.34%,空间消耗约减少55.43%。通过对程序性能各项指标进行分析的结果表明,程序在流水中断率、缓存命中率及机器指令数等性能指标上均有大幅地提升,该方法优化覆盖范围多于目前其他优化方法,有较好的优化效果,在计算流体力学程序优化研究中具有一定的借鉴价值。 展开更多
关键词 流体力学程序 指令级优化 访存优化 流水优化
下载PDF
基于ARM GPU的机载SAR成像算法并行优化策略 被引量:3
16
作者 李威 梁军 +1 位作者 张桢 李青 《计算机工程》 CAS CSCD 北大核心 2020年第10期240-247,共8页
随着无人机技术的快速发展,机载合成孔径雷达(SAR)以高分辨率、高机动性和低成本等特点成为多云雾山丘地区的主要遥感手段,但机载SAR计算资源有限且分析过程需要耗费大量时间,因此降低了无人机对外界环境的响应能力。针对机载SAR成像过... 随着无人机技术的快速发展,机载合成孔径雷达(SAR)以高分辨率、高机动性和低成本等特点成为多云雾山丘地区的主要遥感手段,但机载SAR计算资源有限且分析过程需要耗费大量时间,因此降低了无人机对外界环境的响应能力。针对机载SAR成像过程中的多视处理、旋转放缩和图像量化算法,从简化计算、优化访存和减少条件分支3个方面出发,在ARM Mali-T860 GPU架构上实现基于OpenCL的并行优化策略。实验结果表明,与基于CPU的SAR成像算法相比,优化的多视处理、旋转放缩和图像量化算法分别取得了17倍~62倍、48倍~74倍及31倍~33倍的计算性能提升,且能够实现跨平台应用。 展开更多
关键词 合成孔径雷达 OpenCL平台 向量化 访存优化 多视处理
下载PDF
基于GPU实现允许k-差别近似串匹配并行算法 被引量:3
17
作者 张锦雄 梁正友 +1 位作者 蔡德霞 韦兴柳 《广西大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第2期285-291,共7页
为了在GPU上实现允许k-差别近似串匹配并行算法,并进一步提高在GPU上的算法性能,在综合考虑GPU的存储层次前提下,采取了多种访存优化措施,并提出了避免bank冲突的解决方案。测试结果表明,所用优化措施及方案使算法性能明显提高。
关键词 k-差别近似串匹配 GPU CUDA 访存优化 bank冲突
下载PDF
面向海量星表数据的高效的时序数据生成方法研究 被引量:2
18
作者 熊聪聪 付立艳 赵青 《计算机应用与软件》 北大核心 2021年第4期17-23,共7页
在时序天文学中,观测设备具有在时间轴上频繁采样的特点,这导致处理数据的海量性,应用传统科学计算方法生成时序数据通常耗时较长,效率不高。为了解决这个问题,提出一种高效时序数据生成方法(ETSDGM)。根据用户的时空请求实现时序数据... 在时序天文学中,观测设备具有在时间轴上频繁采样的特点,这导致处理数据的海量性,应用传统科学计算方法生成时序数据通常耗时较长,效率不高。为了解决这个问题,提出一种高效时序数据生成方法(ETSDGM)。根据用户的时空请求实现时序数据的快速生成,重点设计对原始文件的数据访存优化和交叉证认计算过程中的证认计算优化。实验结果表明,在数据量较大的情况下,ETSDGM可以实现更好的性能改进。 展开更多
关键词 时序数据 时空子集 访存优化 计算优化
下载PDF
面向嵌入式的残差网络加速方法研究 被引量:2
19
作者 甘岚 李佳 沈鸿飞 《小型微型计算机系统》 CSCD 北大核心 2020年第11期2314-2320,共7页
残差网络由于其优越的性能广泛应用于图像分类领域.但是作为典型的深层网络,其网络参数众多,对于资源受限的嵌入式设备网络推理速度极低,传统的网络加速局限于单一卷积分解和模型压缩方法.针对这一问题,拟将结合优化残差结构和混合剪枝... 残差网络由于其优越的性能广泛应用于图像分类领域.但是作为典型的深层网络,其网络参数众多,对于资源受限的嵌入式设备网络推理速度极低,传统的网络加速局限于单一卷积分解和模型压缩方法.针对这一问题,拟将结合优化残差结构和混合剪枝量化的方法,实现残差网络的加速与优化,该方法可以很好的维持准确率,并大量减少网络模型的参数量和计算量.改进后残差结构的参数相比常见的ResNet34和ResNet50网络使用的两种残差结构分别减少了43.6%和40.3%,混合加速后,模型存储体积降低了86.3%.通过cifar10数据集对网络进行实验,改进残差结构后的网络检测速度降低了33.28%,再通过混合剪枝量化和优化BN层后模型的检测速度最多可降低69.1%,精度只损失1%左右.实验表明该方法使残差网络在嵌入式端加速明显. 展开更多
关键词 残差网络 嵌入式 卷积优化 访存优化 剪枝 量化
下载PDF
一种基于费马模数的RLWE加解密电路及其FPGA实现
20
作者 杜高明 任宇翔 +2 位作者 王晓蕾 李桢旻 倪伟 《微电子学》 CAS 北大核心 2022年第6期993-1000,共8页
随着量子计算机的发展,传统加密算法受到严重的威胁。为了对抗量子攻击,同态加密技术引起了关注,其中环错误学习(RLWE)的加密方案具有加密效率高、硬件实现简单等优点,在硬件加密上具有巨大的潜力。本文提出并实现了一种RLWE加解密电路... 随着量子计算机的发展,传统加密算法受到严重的威胁。为了对抗量子攻击,同态加密技术引起了关注,其中环错误学习(RLWE)的加密方案具有加密效率高、硬件实现简单等优点,在硬件加密上具有巨大的潜力。本文提出并实现了一种RLWE加解密电路,采用了费马数变换、访存优化和分时复用等方法。实验结果表明,在同等安全参数集下,所提出的RLWE加解密电路的硬件资源效率分别可达到6.01和12.03。 展开更多
关键词 环错误学习 费马数变换 访存优化 分时复用 现场可编程门阵列实现
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部