期刊文献+
共找到522篇文章
< 1 2 27 >
每页显示 20 50 100
基于现场可编程门阵列永磁同步电机模型的硬件在环实时仿真测试技术 被引量:14
1
作者 黄苏融 史奇元 +2 位作者 刘畅 洪文成 高瑾 《电机与控制应用》 北大核心 2010年第9期32-37,共6页
为实现电机控制器的性能测试、设计验证及优化,提出基于现场可编程门阵列(FPGA)永磁同步电机(PMSM)驱动系统模型的硬件在环(HIL)实时仿真测试技术。在FPGA中建立起PMSM及逆变器的实时仿真模型,将其连接真实的数字信号处理器(DSP),实现HI... 为实现电机控制器的性能测试、设计验证及优化,提出基于现场可编程门阵列(FPGA)永磁同步电机(PMSM)驱动系统模型的硬件在环(HIL)实时仿真测试技术。在FPGA中建立起PMSM及逆变器的实时仿真模型,将其连接真实的数字信号处理器(DSP),实现HIL的半实物实时仿真测试。实时仿真模型在FPGA板卡上以50MHz速度运行,累计延迟(响应时间)4.14μs。将HIL平台(真实控制器和FPGA实时仿真模型)与全实物的通用平台(真实控制器、逆变器和PMSM)进行了试验比较,稳态电流幅值相差1.45%,验证了HIL平台的有效性和准确性。 展开更多
关键词 硬件在环 永磁同步电机 现场可编程门阵列 数字信号处理器
下载PDF
现场可编程门阵列——第五讲 FPGA实现嵌入式系统
2
作者 孟宪元 《世界电子元器件》 2006年第1期26-30,共5页
IC技术讲座是本刊2005年推出的全新技术类栏目。为了让工程师在设计开发中完善和拓展基础理论与系统知识,丰富应用经验,《世界电子元器件》和中电网联合清华大学等知名院校共同创办了这个栏目,特约知名学者、教授以及著名半导体公司... IC技术讲座是本刊2005年推出的全新技术类栏目。为了让工程师在设计开发中完善和拓展基础理论与系统知识,丰富应用经验,《世界电子元器件》和中电网联合清华大学等知名院校共同创办了这个栏目,特约知名学者、教授以及著名半导体公司的应用工程师撰写,以系列讲座的方式对热点IC技术进行全面而系统的介绍,涵盖最新技术要点。最先开设的讲座将围绕三大课题:DSP、FPGA和嵌入式系统,每个课题都将连载6期。 展开更多
关键词 FPGA实现 嵌入式系统 现场可编程门阵列 技术讲座 IC技术 电子元器件 半导体公司 系统知识 基础理论 设计开发
下载PDF
基于现场可编程门阵列的SMS4故障检测实现
3
作者 辛小霞 王奕 李仁发 《计算机应用》 CSCD 北大核心 2015年第2期420-423,共4页
硬件实现的SMS4加密算法计算过程中容易出现故障,为防止攻击者利用故障信息进行故障攻击从而破解SMS4算法,提出一种针对SMS4算法的故障检测方案。该方案首先分析了硬件实现的SMS4算法出现故障的位置及其影响,然后在关键路径上建立了3个... 硬件实现的SMS4加密算法计算过程中容易出现故障,为防止攻击者利用故障信息进行故障攻击从而破解SMS4算法,提出一种针对SMS4算法的故障检测方案。该方案首先分析了硬件实现的SMS4算法出现故障的位置及其影响,然后在关键路径上建立了3个检测点,通过实时监测检测点来定位算法执行过程中出现的故障。一旦成功检测到故障,立即重新执行算法以保证攻击者难以获取有效的故障信息。将提出的方案和原无故障检测的算法分别在Xilinx公司的Virtex-7和Altera公司的Cyclone II EP2C35F76C6两个现场可编程门阵列(FPGA)上综合实现,在Virtex-7上,提出的带故障检测的方案比原算法占用逻辑资源增加30%,吞吐量相当;在EP2C35F76C6上比原算法增加0.1%的硬件资源,吞吐量达到原来的93%。实验结果表明,在尽量不影响吞吐量的前提下,提出的方案占用硬件资源小,并且可以有效地检测出故障,从而避免SMS4算法受到故障攻击。 展开更多
关键词 SMS4算法 硬件实现 故障攻击 故障检测 现场可编程门阵列
下载PDF
基于现场可编程门阵列的步进电机运动控制系统设计研究 被引量:1
4
作者 洪永强 林华星 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2007年第2期194-198,共5页
提出一种在多用途步进电机运动控制系统中应用现场可编程门阵列(FPGA)实现多台步进电机可变细分脉冲分配器的方法.按照运动控制系统的多用途特性要求和可逆循环计数寻址EPROM的思想设计可变细分控制策略,将控制步进电机运转的矩形脉冲... 提出一种在多用途步进电机运动控制系统中应用现场可编程门阵列(FPGA)实现多台步进电机可变细分脉冲分配器的方法.按照运动控制系统的多用途特性要求和可逆循环计数寻址EPROM的思想设计可变细分控制策略,将控制步进电机运转的矩形脉冲波通过细分代码转换成阶梯近似、幅值恒定的正弦、余弦波.利用Verilog HDL硬件描述语言,并运用MAX+plus II开发软件,在单片FPGA上实现了多台步进电机的脉冲分配器,负责细分代码的生成与输出,并在FPGA片内集成了大部分的MCU外围接口电路,包括MCU的译码电路、键盘和中断接口电路,使MCU软件结构和外围电路大为简化.结果表明,系统扩展方便,可移植性高,具有广泛的适应性. 展开更多
关键词 步进电机 细分控制 现场可编程门阵列 硬件描述语言
下载PDF
32通道声发射特征参数的实时提取——现场可编程门阵列的设计 被引量:2
5
作者 夏展宏 刘时风 《无损检测》 2003年第8期390-394,共5页
采用硬件描述语言VHDL(very high speedintegratedcircuithardwaredescriptionlan guage)设计出现场可编程门阵列 (FPGA)芯片 ,实时提取 3 2通道的声发射信号的两个特征参数 (到达时间和声发射振铃计数 ) 。
关键词 声发射检验 声发射信号 现场可编程门阵列 硬件描述语言 VHDL 设计
下载PDF
基于现场可编程门阵列同步心电心音采集系统的设计
6
作者 聂文仲 黄华 《中国组织工程研究与临床康复》 CAS CSCD 北大核心 2010年第39期7350-7352,共3页
背景:基于现场可编程门阵列的信号处理方法综合了软件算法和专用集成电路的优点,将逐步取代专用集成电路(ASIC)和单片机应用于数字信号处理领域。目的:介绍一种基于现场可编程门阵列的实时心电、心音同步采集系统设计,实现心电心音采集... 背景:基于现场可编程门阵列的信号处理方法综合了软件算法和专用集成电路的优点,将逐步取代专用集成电路(ASIC)和单片机应用于数字信号处理领域。目的:介绍一种基于现场可编程门阵列的实时心电、心音同步采集系统设计,实现心电心音采集及其波形在LCD上实时显示,同时通过心音同步播放,提供一种观察心电心音和听诊相结合的诊断方式。方法:该系统采用内嵌软核的FPGA作为硬件系统的核心,应用硬件描述语言进行了结构化设计,完成对心电心音信号的实时采集、数据处理、数据传送和显示。结果与结论:与基于单片机的采集系统相比,不仅减少了外围电路复杂度,还提高了系统的集成度和性能。 展开更多
关键词 心电 心音 现场可编程门阵列(FPGA) 软核 硬件描述语言
下载PDF
用DSP实现CPLD多方案现场可编程配置
7
作者 林建文 王叔伟 +1 位作者 吴玉兰 吴娟 《单片机与嵌入式系统应用》 2005年第3期26-28,共3页
结合继电保护测试装置的研制体会,介绍基于DSP的CPLD多方案现场可编程配置方法,给出硬件的配置连接、CPLD配置数据的获取与存储方法和CPLD在DSP控制下的被动串行配置过程。设计中,不用专用配置PROM,配置方案由DSP提供给CPLD,实现同一硬... 结合继电保护测试装置的研制体会,介绍基于DSP的CPLD多方案现场可编程配置方法,给出硬件的配置连接、CPLD配置数据的获取与存储方法和CPLD在DSP控制下的被动串行配置过程。设计中,不用专用配置PROM,配置方案由DSP提供给CPLD,实现同一硬件对不同类型信号的检测与控制。 展开更多
关键词 DSP实现 CPLD 现场可编程 硬件 配置数据 串行 检测与控制 信号 配置方案 配置方法
下载PDF
基于YOLOv4-Tiny的硬件加速系统的设计与实现
8
作者 姜明飞 冯凤阳 +2 位作者 冯赟 魏天东 陆山 《电脑知识与技术》 2024年第10期11-14,共4页
随着神经网络算法的迅猛发展,将其部署在边缘设备上面临着功耗和计算时间的制约。针对YOLOv4-Tiny算法在资源受限的边缘端部署困难等问题,文章提出了一项软硬件协同优化策略。为了提升硬件资源使用率和推理效能,文章采用了输入输出通道... 随着神经网络算法的迅猛发展,将其部署在边缘设备上面临着功耗和计算时间的制约。针对YOLOv4-Tiny算法在资源受限的边缘端部署困难等问题,文章提出了一项软硬件协同优化策略。为了提升硬件资源使用率和推理效能,文章采用了输入输出通道与权重通道的双重缓冲机制,并在此基础上,结合双缓冲结构与强化的高度并行流水线设计,开发了一种基于ZynqFPGA硬件平台的目标检测加速系统。实验结果显示,该系统在ZynqKV260平台上的运行功耗仅为3.712W,单帧推理时间缩短至0.43s,与现有的FPGA硬件加速器平台相比,实现了更优的性能表现。 展开更多
关键词 YOLOv4-Tiny 目标检测 卷积神经网络 硬件加速系统 现场可编程门阵列
下载PDF
高速可编程网络创新实验设备设计与实现
9
作者 崔波 刘中金 +3 位作者 李勇 苏厉 金德鹏 曾烈光 《计算机工程》 CAS CSCD 2014年第5期313-316,共4页
面向下一代网络的新协议和体系架构研究是当前网络研究的重要组成部分,而基于实际设备的实验验证是证明研究结果正确性的主要途径。针对基于软件或传统网络设备的验证方式在有效性、灵活性等方面的不足,提出一种支持网络创新实验验证的... 面向下一代网络的新协议和体系架构研究是当前网络研究的重要组成部分,而基于实际设备的实验验证是证明研究结果正确性的主要途径。针对基于软件或传统网络设备的验证方式在有效性、灵活性等方面的不足,提出一种支持网络创新实验验证的高速网络硬件设备解决方案。该方案基于现场可编程门阵列设计,将控制平面与数据平面解耦合,同时采用高性能的网络与存储模块,满足网络创新实验对设备可编程、高性能、灵活管理控制等方面的需求。基于此方案设计并实现TNIP网络处理板卡。实验结果证明,该板卡支持高达16 Gb/s的网络通信,可以应用于复杂的网络创新实验。 展开更多
关键词 网络设备 网络创新 实验平台 可编程硬件 现场可编程门阵列设计 虚拟化
下载PDF
时空图卷积网络的骨架识别硬件加速器设计
10
作者 谭会生 严舒琪 杨威 《电子测量技术》 北大核心 2024年第11期36-43,共8页
随着人工智能技术的不断发展,神经网络的数据规模逐渐扩大,神经网络的计算量也迅速攀升。为了减少时空图卷积神经网络的计算量,降低硬件实现的资源消耗,提升人体骨架识别时空图卷积神经网络(ST-GCN)实际应用系统的处理速度,利用现场可... 随着人工智能技术的不断发展,神经网络的数据规模逐渐扩大,神经网络的计算量也迅速攀升。为了减少时空图卷积神经网络的计算量,降低硬件实现的资源消耗,提升人体骨架识别时空图卷积神经网络(ST-GCN)实际应用系统的处理速度,利用现场可编程门阵列(FPGA),设计开发了一个基于时空图卷积神经网络的骨架识别硬件加速器。通过对原网络模型进行结构优化与数据量化,减少了FPGA实现约75%的计算量;利用邻接矩阵稀疏性的特点,提出了一种稀疏性矩阵乘加运算的优化方法,减少了约60%的乘法器资源消耗。经过对人体骨架识别实验验证,结果表明,在时钟频率100 MHz下,相较于CPU,FPGA加速ST-GCN单元,加速比达到30.53;FPGA加速人体骨架识别,加速比达到6.86。 展开更多
关键词 人体骨架识别 时空图卷积神经网络(ST-GCN) 硬件加速器 现场可编程门阵列(FPGA) 稀疏矩阵乘加运算硬件优化
下载PDF
基于FPGA的图像处理硬件加速系统的设计 被引量:1
11
作者 张灿宇 封岸松 +2 位作者 张华良 易星 王俊彭 《计算机工程与设计》 北大核心 2024年第3期723-731,共9页
为解决图像处理算法越来越复杂,普通的计算平台已满足不了当前需求的问题,根据现场可编程门阵列(field programmable gate array, FPGA)的并行计算特点对FAST角点检测算法和Sobel边缘检测算法进行硬件加速,采用HLS(high-level synthesis... 为解决图像处理算法越来越复杂,普通的计算平台已满足不了当前需求的问题,根据现场可编程门阵列(field programmable gate array, FPGA)的并行计算特点对FAST角点检测算法和Sobel边缘检测算法进行硬件加速,采用HLS(high-level synthesis, HLS)高层次综合技术对两种算法进行设计并进行相应的优化。为提升系统整体性能,在FPGA上实现全部视频输入输出接口和图像算法的完整通路,通过FPGA算法电路与OpenCV算法程序进行对比,前者的图像处理速度快于后者9~11倍,系统功耗也仅为1.9 W,图像检测可达56 fps,满足实时图像处理要求,为以后设计复杂的图像处理系统提供了参考。 展开更多
关键词 现场可编程门阵列 硬件加速 高层次综合技术 图像处理 PYNQ-Z2 角点检测 边缘检测
下载PDF
基于现场可编程逻辑门阵列的新型混沌系统实现 被引量:8
12
作者 邵书义 闵富红 +1 位作者 吴薛红 张新国 《物理学报》 SCIE EI CAS CSCD 北大核心 2014年第6期69-77,共9页
构建了一个新的五维变形蔡氏系统,通过数值仿真,分析平衡点的稳定性、分岔图和Lyapunov指数谱,研究系统特有的基本非线性动力学行为,还分析了改变不同参数时系统动力学行为的变化.基于混沌系统的数值仿真分析以及数字化处理技术,将五维... 构建了一个新的五维变形蔡氏系统,通过数值仿真,分析平衡点的稳定性、分岔图和Lyapunov指数谱,研究系统特有的基本非线性动力学行为,还分析了改变不同参数时系统动力学行为的变化.基于混沌系统的数值仿真分析以及数字化处理技术,将五维变形蔡氏系统状态方程进行离散化处理,并根据IEEE-754标准和模块化设计理念构建出实现混沌系统变量运算关系的基本模块,进一步利用现场可编程逻辑门阵列硬件平台实现了五维变形蔡氏系统的混沌吸引子.研究结果表明,新五维变形蔡氏系统具有新的混沌动力学行为,并通过硬件证实了新系统的存在性和物理上的可实现性. 展开更多
关键词 混沌系统 动力学行为 现场可编程逻辑门阵列硬件实现
原文传递
轻量级卷积神经网络的硬件加速方法
13
作者 吕文浩 支小莉 童维勤 《计算机工程与设计》 北大核心 2024年第3期699-706,共8页
为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单... 为提升轻量级卷积神经网络在硬件平台的资源利用效率和推理速度,基于软硬件协同优化的思想,提出一种面向FPGA平台的轻量级卷积神经网络加速器,并针对网络结构的特性设计专门的硬件架构。与多级并行策略结合,设计一种统一的卷积层计算单元。为降低模型存储成本、提高加速器的吞吐量,提出一种基于可微阈值的选择性移位量化方案,使计算单元能够以硬件友好的形式执行计算。实验结果表明,在Arria 10 FPGA平台上部署的MobileNetV2加速器能够达到311 fps的推理速度,相比CPU版本实现了约9.3倍的加速比、GPU版本约3倍的加速比。在吞吐量方面,加速器能够实现98.62 GOPS。 展开更多
关键词 硬件协同优化 现场可编程门阵列 轻量级卷积神经网络 移位量化 并行计算 硬件加速 开放式计算语言
下载PDF
zk-SNARK中数论变换的硬件加速方法研究 被引量:2
14
作者 赵海旭 柴志雷 +2 位作者 花鹏程 王锋 丁冬 《计算机科学与探索》 CSCD 北大核心 2024年第2期538-552,共15页
简洁非交互式零知识证明能够生成长度固定的证明并快速进行验证,极大地推动了零知识证明在数字签名、区块链及分布式存储等领域的应用。但其证明的生成过程极其耗时且需要被频繁调用,其中数论变换是证明生成过程的主要运算之一。然而现... 简洁非交互式零知识证明能够生成长度固定的证明并快速进行验证,极大地推动了零知识证明在数字签名、区块链及分布式存储等领域的应用。但其证明的生成过程极其耗时且需要被频繁调用,其中数论变换是证明生成过程的主要运算之一。然而现有的通用数论变换硬件加速方法难以满足其在简洁非交互式零知识证明中大规模、高位宽的要求。针对该问题,提出一种数论变换多级流水硬件计算架构。针对高位宽计算需求对高位模运算进行优化,设计了低时延蒙哥马利模乘单元;为了加速大规模计算,通过二维子任务划分将大规模数论变换任务划分为小规模独立子任务,并通过消除数据依赖实现了子任务间计算流水;在子任务多轮蝶形运算之间采用数据重排机制,有效缓解了访存需求并实现了不同步长蝶形运算间的计算流水。所提出的数论变换计算架构可以根据现场可编程门阵列(FPGA)片上资源灵活扩展,方便部署在不同规模的FPGA上以获得最大加速效果。所提出的硬件架构使用高层次综合(HLS)开发并基于OpenCL框架在AMD Xilinx Alveo U50实现了整套异构加速系统。实验结果表明,相比于PipeZK中的数论变换加速模块,该方法获得了1.95倍的加速比;在运行当前主流的简洁非交互式零知识证明开源项目bellman时,相比于AMD Ryzen 95900X单核及12核分别获得了27.98倍和1.74倍的加速比,并分别获得了6.9倍、6倍的能效提升。 展开更多
关键词 现场可编程门阵列(FPGA) 简洁非交互式零知识证明(zk-SNARK) 模乘 数论变换 硬件加速
下载PDF
面向处理器功能验证的硬件化System Verilog断言设计
15
作者 张子卿 石侃 +2 位作者 徐烁翔 王梁辉 包云岗 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1436-1449,共14页
功能验证在处理器芯片开发流程中所占用的时间超过70%,因此优化提升功能验证环节的效率非常必要.软件仿真等传统验证方法提供了包括断言等多种验证机制,以提升验证的细粒度可见性和自检查能力,但是软件仿真运行速度较慢,在高效性方面有... 功能验证在处理器芯片开发流程中所占用的时间超过70%,因此优化提升功能验证环节的效率非常必要.软件仿真等传统验证方法提供了包括断言等多种验证机制,以提升验证的细粒度可见性和自检查能力,但是软件仿真运行速度较慢,在高效性方面有明显不足.基于FPGA的硬件原型验证方法能极大地加速验证性能,但其调试能力较弱,虽能快速发现漏洞,但难以定位漏洞出现的具体位置和根本原因,存在有效性不足难题.为同时解决上述功能验证有效性与高效性的问题,提出一种将不可综合的断言语言SVA(SystemVerilog Assertion)自动转换成逻辑等效但可综合的RTL电路的方法,聚焦于断言这一类对设计进行非全局建模、纵向贯穿各抽象层级的验证方式,对基于全局指令集架构(instruction set architecture,ISA)模型的验证能力进行补足.同时,结合FPGA细粒度并行化、高度可扩展的优势,对处理器的验证过程进行硬件加速,提升了处理器的开发效率.实现了一个端到端的硬件断言平台,集成对SVA进行硬件化的完整工具链,并统计运行在FPGA上的硬件化断言的触发和覆盖率情况.实验表明,和软件仿真相比,所提方法能取得超过2万倍的验证效率提升. 展开更多
关键词 断言 处理器验证 硬件仿真 现场可编程逻辑门阵列 原型验证
下载PDF
基于FPGA的软硬件协同纠删码编码加速方案
16
作者 杨思捷 陈俊奇 +1 位作者 王勇 李树林 《计算机工程》 CAS CSCD 北大核心 2024年第2期224-231,共8页
纠删码容错技术已广泛应用于分布式存储系统,相较于多副本容错技术能显著降低数据存储成本,并且具有更高的数据通信可靠性和安全性,但在数据存储过程中不可避免地会引入额外的计算开销并增加编码时延,导致数据写入吞吐量降低。针对该问... 纠删码容错技术已广泛应用于分布式存储系统,相较于多副本容错技术能显著降低数据存储成本,并且具有更高的数据通信可靠性和安全性,但在数据存储过程中不可避免地会引入额外的计算开销并增加编码时延,导致数据写入吞吐量降低。针对该问题,提出一种基于现场可编程门列阵(FPGA)的纠删码编码加速方案。首先,利用FPGA的高速并行计算优势对纠删码算法进行硬件加速,并实现并行处理和时序优化。然后,针对上位机与FPGA之间因传输速率和处理速率不一致造成内存中的数据溢出问题,在FPGA上拓展了片外DDR3接口用于数据缓存,提高了通信可靠性,并利用DDR3的随机存取特点实现对数据块的分片。最后,设计基于FPGA的纠删码编码硬件加速架构进行实验验证。实验结果表明,与主流Jerasure 2.0开源纠删码库相比,该方案的数据写入吞吐量提升了2.7~93.0倍,尤其对于小文件的编码写入性能提升更为显著。 展开更多
关键词 纠删码 现场可编程门阵列 硬件加速 分布式存储 模块化设计
下载PDF
抗量子密码中快速数论变换的硬件设计与实现
17
作者 肖昊 赵延睿 +1 位作者 胡越 刘笑帆 《信息网络安全》 CSCD 北大核心 2023年第4期72-79,共8页
快速数论变换(Number Theoretic Transform,NTT)是抗量子密码算法的关键部分,其计算性能对系统的运行速度至关重要。相比经典的NTT算法,高基NTT算法可以达到更好的计算性能。针对高基NTT硬件实现过程中计算流程冗长、控制逻辑复杂的问题... 快速数论变换(Number Theoretic Transform,NTT)是抗量子密码算法的关键部分,其计算性能对系统的运行速度至关重要。相比经典的NTT算法,高基NTT算法可以达到更好的计算性能。针对高基NTT硬件实现过程中计算流程冗长、控制逻辑复杂的问题,文章基于流水线结构提出一种高性能的基-4 NTT硬件架构。首先,基于经典NTT算法,推导出利于硬件实现的基-4递归NTT,简化了高基算法的计算流程;然后,提出一种单路延迟反馈结构,对计算流程进行有效的流水线分割,降低了硬件架构的复杂度;最后,利用两级蝶形运算耦合实现基-4蝶形单元,并使用移位与加法优化约简计算过程,节省了硬件资源开销。文章以抗量子密码方案Falcon为例,在Xilinx Artix-7 FPGA上实现了所提出的NTT硬件架构。实验结果表明,与其他相关的设计相比,文章提出的设计方案在计算性能和硬件开销等方面表现更好。 展开更多
关键词 抗量子密码 快速数论变换 硬件加速 现场可编程门阵列
下载PDF
一种面积高效的双态可配置NTT硬件加速器
18
作者 朱敏 肖昊 《信息网络安全》 CSCD 北大核心 2024年第6期959-967,共9页
矩阵向量乘法是基于格的后量子密码(Post-Quantum Cryptography,PQC)方案的主要计算瓶颈。利用数论变换(Number Theoretic Transform,NTT)能将矩阵向量乘法的计算复杂度从O(N^(2))降到O(Nlog_(2)N),从而可以进一步提高后量子密码方案的... 矩阵向量乘法是基于格的后量子密码(Post-Quantum Cryptography,PQC)方案的主要计算瓶颈。利用数论变换(Number Theoretic Transform,NTT)能将矩阵向量乘法的计算复杂度从O(N^(2))降到O(Nlog_(2)N),从而可以进一步提高后量子密码方案的计算速度。文章基于现场可编程门阵列(Field Programmable Gate Array,FPGA)提出了一种面积高效的双态可配置NTT硬件加速器,能高效地执行Kyber和Dilithium算法中的NTT运算。文章所提方案使用的模乘器通过查找表(Look Up Table,LUT)技术压缩数据位宽降低取模成本后,利用KRED算法对结果约简。此外,结合优化后的无冲突NTT数据流,文章所提出的双态可配置NTT加速器可以高效完成计算。文章所提出的NTT硬件加速器在Xilinx Artix-7平台上进行了验证。相较于参考文献方案,文章所提出的双态可配置NTT硬件加速器在保持对Kyber和Dilithium算法通用性的同时,在计算性能和硬件开销等方面表现更好。 展开更多
关键词 后量子密码 快速数论变换 模乘 硬件加速 现场可编程门阵列
下载PDF
FPGA平台上动态硬件重构的Winograd神经网络加速器
19
作者 梅冰笑 滕文彬 +3 位作者 张弛 王文浩 李富强 苑福利 《计算机工程与应用》 CSCD 北大核心 2024年第22期323-334,共12页
为解决卷积神经网络在FPGA平台上进行硬件加速时存在的资源利用率低和资源受限问题,提出了一种基于FPGA动态部分重构技术和Winograd快速卷积的卷积神经网络加速器。该加速器通过运行时硬件重构对FPGA片上资源进行时分复用,采用流水线方... 为解决卷积神经网络在FPGA平台上进行硬件加速时存在的资源利用率低和资源受限问题,提出了一种基于FPGA动态部分重构技术和Winograd快速卷积的卷积神经网络加速器。该加速器通过运行时硬件重构对FPGA片上资源进行时分复用,采用流水线方式动态地将各个计算流水段配置到FPGA,各个流水段所对应的卷积计算核心使用Winograd算法进行定制优化,以在解决资源受限问题的同时最大程度地提升计算资源利用效率。针对该加速器架构,进一步构建了组合优化模型,用于搜索在特定FPGA硬件平台上部署特定网络模型的最优并行策略,并使用遗传算法进行设计空间求解。基于Xilinx VC709 FPGA平台对VGG-16网络模型进行部署和分析,综合仿真结果表明,所提出的设计方法能够在资源有限的FPGA上自适应地实现大型神经网络模型,加速器整体性能可以达到1078.3 GOPS,较以往加速器的性能和计算资源利用效率可以分别提升2.2倍和3.62倍。 展开更多
关键词 卷积神经网络 动态部分硬件重构 现场可编程门阵列(FPGA) 硬件加速器 Winograd快速卷积
下载PDF
基于自适应SIRP算法的重构降噪实现
20
作者 陈二微 《仪表技术》 2024年第6期28-32,共5页
由于模拟信号的压缩感知对噪声高度敏感,在噪声条件下其重构性能显著下降,这已成为制约模拟信号压缩感知技术进一步发展的主要瓶颈。提出了一种结合自适应迭代方法的稀疏独立正则化追踪(Adaptive Sparsity Independent Regularized Purs... 由于模拟信号的压缩感知对噪声高度敏感,在噪声条件下其重构性能显著下降,这已成为制约模拟信号压缩感知技术进一步发展的主要瓶颈。提出了一种结合自适应迭代方法的稀疏独立正则化追踪(Adaptive Sparsity Independent Regularized Pursuit, A-SIRP)算法。该算法通过在自适应迭代过程中分离噪声原子,最大限度地减少了噪声的干扰,提升了输出信号的信噪比。设计了基于现场可编程门阵列的A-SIRP硬件架构,该架构主要包含计算模块、存储模块和控制模块。在Xilinx公司Kintex-7平台上运用硬件描述语言Verilog HDL对设计方案进行了验证。实验结果表明,所实现的A-SIRP硬件设计在数据位宽为20 bit的条件下,能够达到36.02 dB的重构峰值信噪比,充分验证了该算法在硬件实现上的可靠性和优越性。 展开更多
关键词 压缩感知 自适应迭代 稀疏独立正则化追踪算法 现场可编程门阵列 硬件架构
下载PDF
上一页 1 2 27 下一页 到第
使用帮助 返回顶部