期刊文献+
共找到112篇文章
< 1 2 6 >
每页显示 20 50 100
Complex multiplier suited for FPGA structure
1
作者 Keiichi Satoh Jubee Tad +1 位作者 Yasutaka Tamura Gensuke Goto 《通讯和计算机(中英文版)》 2009年第12期55-62,共8页
关键词 fpga 乘数 WALLACE树 结构 有效利用 路径延迟 合成电路 现场可编程
下载PDF
FPGA Optimized Accelerator of DCNN with Fast Data Readout and Multiplier Sharing Strategy 被引量:1
2
作者 Tuo Ma Zhiwei Li +3 位作者 Qingjiang Li Haijun Liu Zhongjin Zhao Yinan Wang 《Computers, Materials & Continua》 SCIE EI 2023年第12期3237-3263,共27页
With the continuous development of deep learning,Deep Convolutional Neural Network(DCNN)has attracted wide attention in the industry due to its high accuracy in image classification.Compared with other DCNN hard-ware ... With the continuous development of deep learning,Deep Convolutional Neural Network(DCNN)has attracted wide attention in the industry due to its high accuracy in image classification.Compared with other DCNN hard-ware deployment platforms,Field Programmable Gate Array(FPGA)has the advantages of being programmable,low power consumption,parallelism,and low cost.However,the enormous amount of calculation of DCNN and the limited logic capacity of FPGA restrict the energy efficiency of the DCNN accelerator.The traditional sequential sliding window method can improve the throughput of the DCNN accelerator by data multiplexing,but this method’s data multiplexing rate is low because it repeatedly reads the data between rows.This paper proposes a fast data readout strategy via the circular sliding window data reading method,it can improve the multiplexing rate of data between rows by optimizing the memory access order of input data.In addition,the multiplication bit width of the DCNN accelerator is much smaller than that of the Digital Signal Processing(DSP)on the FPGA,which means that there will be a waste of resources if a multiplication uses a single DSP.A multiplier sharing strategy is proposed,the multiplier of the accelerator is customized so that a single DSP block can complete multiple groups of 4,6,and 8-bit signed multiplication in parallel.Finally,based on two strategies of appeal,an FPGA optimized accelerator is proposed.The accelerator is customized by Verilog language and deployed on Xilinx VCU118.When the accelerator recognizes the CIRFAR-10 dataset,its energy efficiency is 39.98 GOPS/W,which provides 1.73×speedup energy efficiency over previous DCNN FPGA accelerators.When the accelerator recognizes the IMAGENET dataset,its energy efficiency is 41.12 GOPS/W,which shows 1.28×−3.14×energy efficiency compared with others. 展开更多
关键词 fpga ACCELERATOR DCNN fast data readout strategy multiplier sharing strategy network quantization energy efficient
下载PDF
基于FPGA乘法器架构的RNS与有符号二进制量转换 被引量:1
3
作者 叶春 张曦煌 《微电子学与计算机》 CSCD 北大核心 2005年第11期148-150,153,共4页
RNS(余数数制系统)是一种整数运算系统,在粒度精确性,能源损耗和响应速度上有很大的优势。从RNS到二进制数的输入输出转换是基于余数算法的专用架构实现的关键。本文提出了一个基于N类模的RNS与有符号二进制量的通用转换算法在FPGAs的... RNS(余数数制系统)是一种整数运算系统,在粒度精确性,能源损耗和响应速度上有很大的优势。从RNS到二进制数的输入输出转换是基于余数算法的专用架构实现的关键。本文提出了一个基于N类模的RNS与有符号二进制量的通用转换算法在FPGAs的乘法器上的实现过程。该算法能更有效地进行有符号数与RNS的转换。基于该算法类型乘法器在同类型乘法器中显示出了速度优势。文章中该架构被映射到Altera的10K系列的FPGA上。 展开更多
关键词 rns(余数数制系统) fpga(现场可编程门阵列) 乘法器
下载PDF
基于RNS算法的高阶FIR滤波器设计 被引量:1
4
作者 王巍 李双巧 +4 位作者 徐媛媛 杨正琳 袁军 王冠宇 何雍春 《微电子学》 CSCD 北大核心 2017年第6期788-792,共5页
以{2~n-1,2~n,2~n+1,2^(n-1)-1,2^(n+1)-1}为余数基,在余数系统(RNS)的基础上设计了一种128抽头有限脉冲响应(FIR)滤波器。针对大位宽输入,利用基于华莱士(Wallace)树结构的纯组合逻辑电路,实现了二进制到余数的转换。相较于一般抽头中... 以{2~n-1,2~n,2~n+1,2^(n-1)-1,2^(n+1)-1}为余数基,在余数系统(RNS)的基础上设计了一种128抽头有限脉冲响应(FIR)滤波器。针对大位宽输入,利用基于华莱士(Wallace)树结构的纯组合逻辑电路,实现了二进制到余数的转换。相较于一般抽头中乘法器级联加法器的结构,设计的乘累加(MAC)单元将加法运算合并到部分积求和中,减少了一级模加法器,使得电路延时进一步减少。此外,通过对进位保留加法器(CSA)的中间结果取模,避免了加法运算引起的位宽增加,从而降低了整个运算的复杂度。电路在FPGA上设计实现。实验结果表明,该滤波器的延时为3.55ns,功耗为2 585mW,消耗的硬件资源明显降低。 展开更多
关键词 FIR滤波器 余数系统 前向转换 乘累加单元
下载PDF
基于Altera FPGA的部分串行FIR滤波器 被引量:2
5
作者 郭雨梅 陈曦 《沈阳工业大学学报》 EI CAS 2009年第5期577-581,共5页
为了设计资源消耗少、性能优良、通用性强的FIR滤波器,提出一种利用Altera CYCLONEIII系列FPGA内部M9KRAM、硬件乘法器和逻辑单元构建部分串行FIR滤波器的设计思想.与完全串行结构相比,成倍提高了运算速度,减少了运算延迟;与完全并行结... 为了设计资源消耗少、性能优良、通用性强的FIR滤波器,提出一种利用Altera CYCLONEIII系列FPGA内部M9KRAM、硬件乘法器和逻辑单元构建部分串行FIR滤波器的设计思想.与完全串行结构相比,成倍提高了运算速度,减少了运算延迟;与完全并行结构相比,减少了逻辑单元的消耗.利用MATLAB中的fdatool工具设计FIR滤波器,并对系数进行量化;利用Quartus软件编译,并通过Modelsim软件仿真testbench中响应的输入、输出量.仿真结果验证了该设计方法的正确性,所设计的部分串行FIR滤波器具有资源消耗少、运算速度快等特点. 展开更多
关键词 现场可编程逻辑阵列 FIR滤波器 部分串行 fdatool工具 M9KRAM模块 硬件乘法器 Modelsim仿真 低延迟
下载PDF
Design of a Dedicated Reconfigurable Multiplier in an FPGA 被引量:5
6
作者 余洪敏 陈陵都 刘忠立 《Journal of Semiconductors》 EI CAS CSCD 北大核心 2008年第11期2218-2225,共8页
We design a reconfigurable pipelined multiplier embedded in an FPGA. This design is based on the modified Booth algorithm and performs 18 × 18 signed or 17 × 17 unsigned multiplication. We propose a novel me... We design a reconfigurable pipelined multiplier embedded in an FPGA. This design is based on the modified Booth algorithm and performs 18 × 18 signed or 17 × 17 unsigned multiplication. We propose a novel method for circuit optimization to reduce the number of partial products. A new layout floorplan design of the multiplier block is reported to comply with the constraints imposed by the tile-based FPGA chip design. The multiplier can be configured as synchronous or asynchronous. Its operation can also be configured as pipelined for high-frequency operation. This design can be easily extended for different input and output bit-widths. We employ a novel carry look-ahead adder circuit to generate the final product. The transmission-gate logic is used for the low-level circuits throughout the entire multiplier for fast logic operations. The design of the multiplier block is based on SMIC 0.13μm CMOS technology using full-custom design methodology. The operation of the 18 × 18 multiplier takes 4. lns. The two-stage pipelined operation cycle is 2.5ns. This is 29.1% faster than the commercial multiplier and is 17.5% faster than the multipliers reported in other academic designs. Compared with the distributed LUT-based multiplier,it demonstrates an area efficiency ratio of 33 : 1. 展开更多
关键词 fpga multiplier RECONFIGURABLE modified Booth algorithm CLA transmission-gate logic
原文传递
Incorporation of Reduced Full Adder and Half Adder into Wallace Multiplier and Improved Carry-Save Adder for Digital FIR Filter
7
作者 S. Chinnapparaj D. Somasundareswari 《Circuits and Systems》 2016年第9期2467-2475,共9页
Improvement of digital FIR filter is vital in the field of Digital Signal Processing in order to reduce the area, delay and power. Multiplication and Accumulation (MAC) unit of Finite Impulse Response (FIR) filte... Improvement of digital FIR filter is vital in the field of Digital Signal Processing in order to reduce the area, delay and power. Multiplication and Accumulation (MAC) unit of Finite Impulse Response (FIR) filter has been designed using efficient multiplier and adder circuits for optimized APT (Area,Power and Timing) product. In this paper, the design of direct form FIR filter with efficient MAC unit has been presented. Initially, full adder and half adder structures are shrunk down by reducing number of gates. These compact full adder and half adder structures are incorporated into Wallace Multiplier and Improved Carry-Save Adder. The proposed 16-bit Carry-Save Adder has been improved by splitting into four parallel phases. Consequently the delay of enhanced Carry- Save Adder is reduced. Generation of carry output is performed using number of OR gates in a sequential manner. All these enhanced architectures are incorporated into the Digital FIR Filter to reduce the area, delay and power utilization. 展开更多
关键词 Direct Form FIR Filter Compact Full Adder and Half Adder Improved Carry-Save Adder Modified Wallace multiplier fpga
下载PDF
基于FPGA的卷积神经网络硬件加速器设计 被引量:3
8
作者 黄沛昱 赵强 李煜龙 《计算机应用与软件》 北大核心 2023年第3期38-44,共7页
为了提高中小规模设备卷积神经网络的推理速度,提出一种基于FPGA的卷积神经网络硬件加速器设计方案。针对模型中的卷积运算单元,该硬件加速器采用输入、输出二维循环展开和循环分块的方法,设计128个并行乘法器单元。模型的输入输出接口... 为了提高中小规模设备卷积神经网络的推理速度,提出一种基于FPGA的卷积神经网络硬件加速器设计方案。针对模型中的卷积运算单元,该硬件加速器采用输入、输出二维循环展开和循环分块的方法,设计128个并行乘法器单元。模型的输入输出接口采用双缓存设计,通过乒乓操作,降低数据传输带来的时间延迟。同时,采用16位定点量化模型中权重参数,偏置参数和输入输出特征图的像素值。实验结果表明,与通用CPU酷睿i5-4440处理器相比,在COCO数据集上准确率几乎不变的情况下,计算性能提高5.77倍。在系统时钟频率为150 MHz时,硬件加速器的计算性能达到28.88 GOPS。 展开更多
关键词 卷积神经网络 fpga 循环展开 循环分块 并行乘法器单元 双缓存设计
下载PDF
基于有符号数乘法器优化设计的自适应陷波器FPGA实现 被引量:1
9
作者 赵中华 冯桂义 邓德迎 《梧州学院学报》 2023年第4期40-49,共10页
自适应滤波器因其具有能跟踪未知信号特性并自动调整到最佳的滤波效果而被广泛应用于诸多领域,如噪声消除、智能天线阵、音视频处理等。针对自适应滤波器实时性和运算速度等要求,FPGA成为自适应滤波器硬件实现的主流平台之一。由于系统... 自适应滤波器因其具有能跟踪未知信号特性并自动调整到最佳的滤波效果而被广泛应用于诸多领域,如噪声消除、智能天线阵、音视频处理等。针对自适应滤波器实时性和运算速度等要求,FPGA成为自适应滤波器硬件实现的主流平台之一。由于系统愈加复杂,FPGA的片上资源也显得弥足珍贵。对于FPGA自适应滤波器而言,资源的大量消耗主要来自于乘法运算量,因此在设计中达到相同的滤波效果时降低乘法资源的消耗是关键。该研究基于EP4CE15F17C8的FPGA平台,采用模块化和并行式的设计思路,基于符号LMS算法自行设计了有符号数阵列乘法器,在有限硬件资源的条件下实现同等滤波效果的自适应陷波器设计。试验结果表明:以滤除工频干扰为例,硬件平台能有效恢复目标信号,与目前流行的自适应陷波器对比,所需乘法器资源减少7%。 展开更多
关键词 自适应滤波器 乘法器 fpga LMS算法
下载PDF
基于FPGA的电力电子系统电磁暂态实时仿真通用解算器 被引量:2
10
作者 周斌 汪光森 +2 位作者 李卫超 王志伟 揭贵生 《电工技术学报》 EI CSCD 北大核心 2023年第14期3862-3874,共13页
电力电子系统较高的开关频率给传统以CPU为计算核心的电磁暂态(EMT)实时仿真带来了挑战。为了实现小步长实时仿真,该文提出并实现一款基于FPGA的EMT实时仿真解算器。该解算器的通用化框架分为离线和在线两部分,离线程序能够自动获取仿... 电力电子系统较高的开关频率给传统以CPU为计算核心的电磁暂态(EMT)实时仿真带来了挑战。为了实现小步长实时仿真,该文提出并实现一款基于FPGA的EMT实时仿真解算器。该解算器的通用化框架分为离线和在线两部分,离线程序能够自动获取仿真模型的参数并生成计算数据,在线程序能够自动配置计算资源与控制逻辑。为了提高仿真速度,还提出一种低延迟的单周期浮点累加方法,用于构建解算器的基本计算单元。基于Xilinx Virtex7 xc7vx485t型FPGA芯片的评估与分析结果表明:相比某商业FPGA实时仿真解算器,该文解算器的仿真速度提高了一倍,仿真规模增加了29.69%~79.17%。最后,还通过两种电力电子变换器的实时仿真测试,验证了它的实际性能。所提解算器能够达到400 MHz的运行速度、100 ns级的仿真步长并保持较高的仿真精度,具有通用性强、自动化程度高、配置灵活等特点。 展开更多
关键词 电力电子系统 fpga 实时仿真 通用解算器 浮点数乘累加
下载PDF
后量子签名算法Falcon的剩余数系统FPGA实现研究
11
作者 薛莲 高献伟 田紫珊 《北京电子科技学院学报》 2023年第4期34-41,共8页
作为后量子签名算法Falcon的核心部件,剩余数系统对算法的密钥生成模块中求解NTRU方程有重大意义。本文介绍了RNS的FPGA实现方法,深入研究其剩余数生成、循环群求逆模块以及剩余数还原模块,提出高效的硬件设计思路与结构,采用并行结构... 作为后量子签名算法Falcon的核心部件,剩余数系统对算法的密钥生成模块中求解NTRU方程有重大意义。本文介绍了RNS的FPGA实现方法,深入研究其剩余数生成、循环群求逆模块以及剩余数还原模块,提出高效的硬件设计思路与结构,采用并行结构设计算法主体框架,利用循环迭代进行优化,并在芯片上进行综合,给出算法整体改进方案,实现剩余数系统在六轮升降环中的全部的应用,并进一步提高数据量,完成模数生成模块十轮升降环应用的硬件实现,算法整体使用较少的逻辑资源,并在运算速度上有进一步的提升。 展开更多
关键词 剩余数系统 基于格的后量子签名算法 fpga
下载PDF
GF(2^m)域乘法器的快速设计及FPGA实现 被引量:9
12
作者 高献伟 靳济方 +1 位作者 方勇 李为民 《计算机工程与应用》 CSCD 北大核心 2004年第25期111-112,123,共3页
有限域GF(2m)上的椭圆曲线密码体制以其密钥短、安全强度高的优点获得了广泛的重视和应用,该密码体制最主要的运算是有限域上的乘法运算。该文提出一种基于FPGA技术的多项式基乘法器的快速设计方法,并给出了面积与速度的比较分析。
关键词 有限域 乘法器 fpga VHDL
下载PDF
编码器倍频、鉴相电路在FPGA中的实现 被引量:9
13
作者 张宝泉 杨世兴 赵永秀 《工矿自动化》 北大核心 2005年第4期69-71,共3页
VHDL是系统设计领域最佳的硬件描述语言。文章针对用于位置与速度反馈测量的光电编码器信号的特点,介绍了运用VHDL在FPGA中实现编码器倍频、鉴相电路的方法,它对提高编码器分辨率与实现高精度、高稳定性的信号检测及位置伺服控制具有一... VHDL是系统设计领域最佳的硬件描述语言。文章针对用于位置与速度反馈测量的光电编码器信号的特点,介绍了运用VHDL在FPGA中实现编码器倍频、鉴相电路的方法,它对提高编码器分辨率与实现高精度、高稳定性的信号检测及位置伺服控制具有一定的现实意义。 展开更多
关键词 编码器 倍频 鉴相 fpga VHDL
下载PDF
FPGA实现高速FFT处理器的设计 被引量:23
14
作者 韩颖 王旭 吴嗣亮 《电讯技术》 北大核心 2003年第2期74-78,共5页
介绍了采用Xilinx公司的Virtex -II系列FPGA设计高速FFT处理器的实现方法及技巧。充分利用Virtex -II芯片的硬件资源 ,减少复杂逻辑 ,采用流水方式对复数数据实现了加窗、FFT、求模平方三种运算。整个设计采用流水与并行方式尽量避免瓶... 介绍了采用Xilinx公司的Virtex -II系列FPGA设计高速FFT处理器的实现方法及技巧。充分利用Virtex -II芯片的硬件资源 ,减少复杂逻辑 ,采用流水方式对复数数据实现了加窗、FFT、求模平方三种运算。整个设计采用流水与并行方式尽量避免瓶颈的出现 ,提高系统时钟频率 ,达到高速处理。实验表明此处理器既有专用ASIC电路的快速性 ,又有DSP器件的灵活性的特点 。 展开更多
关键词 数字信号处理 现场可编程门阵列 快速傅里叶变换 加窗运算 求模平方运算 FFT处理器
下载PDF
基于FPGA的新型数字锁相倍频方法 被引量:6
15
作者 郭雨梅 周晓章 陈曦 《仪表技术与传感器》 CSCD 北大核心 2010年第5期60-62,共3页
为了克服模拟锁相倍频电路在应用过程中易受温度和电压影响、锁相时间长、存在直流零点漂移及部件饱和等缺欠,以实现对被测信号的高速高精度采样,提出了一种基于FPGA的新型数字锁相倍频方法。该方法依据锁相倍频的基本原理,通过检测被... 为了克服模拟锁相倍频电路在应用过程中易受温度和电压影响、锁相时间长、存在直流零点漂移及部件饱和等缺欠,以实现对被测信号的高速高精度采样,提出了一种基于FPGA的新型数字锁相倍频方法。该方法依据锁相倍频的基本原理,通过检测被测信号的边缘计算出频率值,找到相应的指针位置,再根据产生的分频因子来控制数控振荡器的输出信号,从而完成对被采集信号的锁相倍频。经过仿真分析,验证了该方法的可行性,证明了其具有精度高、锁相速度快等优点。 展开更多
关键词 锁相 倍频 现场可编程门阵列 小数分频 边缘检测
下载PDF
基于FPGA的32位并行乘法器的设计与实现 被引量:2
16
作者 蒋勇 罗玉平 +1 位作者 马晏 叶新 《计算机工程》 CAS CSCD 北大核心 2005年第23期222-224,共3页
首先分析比较了几种典型的乘法器实现结构,然后采用树型组合方式,对其结构进行了优化,最后在FPGA上设计并实现了一个高性能的32位并行乘法器。
关键词 乘法器 现场可编程逻辑门阵列 硬件描述语言 BOOTH算法
下载PDF
流水线技术在FPGA设计中的实现 被引量:6
17
作者 何永泰 董刚 黄文卿 《天津工业大学学报》 CAS 2006年第4期84-86,共3页
在数字系统设计中,提高系统的运行速度是设计的一个难点.本文根据流水线设计的基本思想,介绍了利用VHDL语言描述流水线模块的方法,并以4位整数乘法器的设计为例阐述流水线技术设计的过程.通过流水线设计的不同乘法器在MAXPLUSII中编... 在数字系统设计中,提高系统的运行速度是设计的一个难点.本文根据流水线设计的基本思想,介绍了利用VHDL语言描述流水线模块的方法,并以4位整数乘法器的设计为例阐述流水线技术设计的过程.通过流水线设计的不同乘法器在MAXPLUSII中编译、综合下载到FPGA中后,对其特性进行统计分析,证明了流水线技术在提高运算速度方面的明显作用. 展开更多
关键词 流水线 现场可编程门阵列 乘法器
下载PDF
定点符号高速乘法器的设计与FPGA实现 被引量:3
18
作者 李小进 初建朋 +2 位作者 赖宗声 徐晨 景为平 《微电子学与计算机》 CSCD 北大核心 2005年第4期119-121,125,共4页
文章系统地研究了符号定点高速乘法器的实现算法和结构,采用了修正布斯算法,华莱士压缩树,4:2压缩器,伪4:2压缩器以及平方根求和结构。采用VerilogHDL实现了整个乘法器,在单个时钟周期完成一次16位的符号数乘法。为了验证该乘法器的性能... 文章系统地研究了符号定点高速乘法器的实现算法和结构,采用了修正布斯算法,华莱士压缩树,4:2压缩器,伪4:2压缩器以及平方根求和结构。采用VerilogHDL实现了整个乘法器,在单个时钟周期完成一次16位的符号数乘法。为了验证该乘法器的性能,在VertexII-xc2v1000实现了该乘法器,频率可达62.27MHz。每秒钟可完成6227万次16位的符号乘法。 展开更多
关键词 乘法器 fpga 修正布斯算法 华莱士树 4:2压缩器
下载PDF
一种彩色空间变换的FPGA实现方法 被引量:4
19
作者 盛磊 徐科军 《仪器仪表学报》 EI CAS CSCD 北大核心 2005年第z2期378-380,共3页
在设计有特殊温度要求的LCD控制器的过程中,将数字视频信号由RGB空间转换到YCrCb空间,以便独立地控制图像的亮度和色彩。针对彩色空间变换的FPGA实现方法,在分析原理和一般的实现方法后,给出一种改进的、具有“时分复用”特点的逻辑结... 在设计有特殊温度要求的LCD控制器的过程中,将数字视频信号由RGB空间转换到YCrCb空间,以便独立地控制图像的亮度和色彩。针对彩色空间变换的FPGA实现方法,在分析原理和一般的实现方法后,给出一种改进的、具有“时分复用”特点的逻辑结构。它仅用一组运算单元(3个乘法器,3个加减法器),使得该模块节省出2/3的逻辑资源,并提高了模块的最高运行速度。 展开更多
关键词 彩色空间变换 逻辑资源 乘法器 fpga
下载PDF
基于FPGA的红外图像非均匀性校正技术 被引量:3
20
作者 周建勇 尹玉梅 +1 位作者 唐遵烈 蒋志伟 《半导体光电》 EI CAS CSCD 北大核心 2007年第2期273-274,278,共3页
提出一种以内嵌软核的FPGA为核心的红外图像非均匀性校正系统,该系统能实现红外焦平面的实时非均匀性校正以及疵点补偿。其主要优点有:用FPGA实现乘加运算,速度非常快,能很好地解决实时处理问题;降低了硬件电路设计的难度,使得非均匀性... 提出一种以内嵌软核的FPGA为核心的红外图像非均匀性校正系统,该系统能实现红外焦平面的实时非均匀性校正以及疵点补偿。其主要优点有:用FPGA实现乘加运算,速度非常快,能很好地解决实时处理问题;降低了硬件电路设计的难度,使得非均匀性校正与疵点补偿的整个系统中各个功能之间的配合更简单化。 展开更多
关键词 红外图像 非均匀性校正 fpga 嵌入CPU 疵点补偿 乘加运算
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部