期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
Multiply accumulate operations in memristor crossbar arrays for analog computing 被引量:2
1
作者 Jia Chen Jiancong Li +1 位作者 Yi Li Xiangshui Miao 《Journal of Semiconductors》 EI CAS CSCD 2021年第1期90-111,共22页
Memristors are now becoming a prominent candidate to serve as the building blocks of non-von Neumann inmemory computing architectures.By mapping analog numerical matrices into memristor crossbar arrays,efficient multi... Memristors are now becoming a prominent candidate to serve as the building blocks of non-von Neumann inmemory computing architectures.By mapping analog numerical matrices into memristor crossbar arrays,efficient multiply accumulate operations can be performed in a massively parallel fashion using the physics mechanisms of Ohm’s law and Kirchhoff’s law.In this brief review,we present the recent progress in two niche applications:neural network accelerators and numerical computing units,mainly focusing on the advances in hardware demonstrations.The former one is regarded as soft computing since it can tolerant some degree of the device and array imperfections.The acceleration of multiple layer perceptrons,convolutional neural networks,generative adversarial networks,and long short-term memory neural networks are described.The latter one is hard computing because the solving of numerical problems requires high-precision devices.Several breakthroughs in memristive equation solvers with improved computation accuracies are highlighted.Besides,other nonvolatile devices with the capability of analog computing are also briefly introduced.Finally,we conclude the review with discussions on the challenges and opportunities for future research toward realizing memristive analog computing machines. 展开更多
关键词 analog computing MEMRISTOR multiply accumulate(mac)operation neural network numerical computing
下载PDF
基于FPGA的MAC FIR滤波器的实现 被引量:2
2
作者 胡少轩 《山西焦煤科技》 2011年第11期44-46,共3页
FIR滤波器在通信、图像处理、模式识别等领域都有着广泛的应用。本文设计了基于乘累加器(Multiply Accumulation,MAC)的有限冲激响应滤波器(Finite Impulse Response Filter),介绍了其优点及详细的设计方法,并给出了基于FPGA的实现流程... FIR滤波器在通信、图像处理、模式识别等领域都有着广泛的应用。本文设计了基于乘累加器(Multiply Accumulation,MAC)的有限冲激响应滤波器(Finite Impulse Response Filter),介绍了其优点及详细的设计方法,并给出了基于FPGA的实现流程,最后进行了基于JTAG的硬件协同仿真验证。仿真与实验结果验证了所提出MAC FIR的正确性与有效性。 展开更多
关键词 FIR mac FPGA 数字信号处理
下载PDF
高速FIR滤波器设计与FPGA实现 被引量:4
3
作者 鲁迎春 李祥 汪壮兵 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2007年第12期1705-1707,共3页
文章主要研究了基于传统的乘累加(MAC)结构的FIR滤波器设计的2种方法,在此基础上研究了一种新的基于分布式算法(DA)的FIR滤波器设计的硬件结构,分析了DA算法结构较MAC结构的优点。最后设计了一个8阶8 bits的基于DA结构的FIR低通滤波器,... 文章主要研究了基于传统的乘累加(MAC)结构的FIR滤波器设计的2种方法,在此基础上研究了一种新的基于分布式算法(DA)的FIR滤波器设计的硬件结构,分析了DA算法结构较MAC结构的优点。最后设计了一个8阶8 bits的基于DA结构的FIR低通滤波器,并在Altera FPGA上进行硬件实现。 展开更多
关键词 有限长度脉冲响应数字滤波器 现场可编程逻辑门阵列 乘法累加器 分布式算法
下载PDF
基于RNS算法的高阶FIR滤波器设计 被引量:1
4
作者 王巍 李双巧 +4 位作者 徐媛媛 杨正琳 袁军 王冠宇 何雍春 《微电子学》 CSCD 北大核心 2017年第6期788-792,共5页
以{2~n-1,2~n,2~n+1,2^(n-1)-1,2^(n+1)-1}为余数基,在余数系统(RNS)的基础上设计了一种128抽头有限脉冲响应(FIR)滤波器。针对大位宽输入,利用基于华莱士(Wallace)树结构的纯组合逻辑电路,实现了二进制到余数的转换。相较于一般抽头中... 以{2~n-1,2~n,2~n+1,2^(n-1)-1,2^(n+1)-1}为余数基,在余数系统(RNS)的基础上设计了一种128抽头有限脉冲响应(FIR)滤波器。针对大位宽输入,利用基于华莱士(Wallace)树结构的纯组合逻辑电路,实现了二进制到余数的转换。相较于一般抽头中乘法器级联加法器的结构,设计的乘累加(MAC)单元将加法运算合并到部分积求和中,减少了一级模加法器,使得电路延时进一步减少。此外,通过对进位保留加法器(CSA)的中间结果取模,避免了加法运算引起的位宽增加,从而降低了整个运算的复杂度。电路在FPGA上设计实现。实验结果表明,该滤波器的延时为3.55ns,功耗为2 585mW,消耗的硬件资源明显降低。 展开更多
关键词 FIR滤波器 余数系统 前向转换 乘累加单元
下载PDF
一种支持SIMD指令的流水化可拆分乘加器结构 被引量:2
5
作者 李东晓 《计算机工程》 CAS CSCD 北大核心 2006年第7期264-266,共3页
乘加器是媒体数字信号处理器的关键运算部件。该文结合32位数字信号处理器芯片MD32开发(“863”计划)实践,提出了一种流水化可拆分的乘加器硬件实现结构,通过对乘法操作的流水处理实现了200MHz工作频率下的单周期吞吐量指标,通过构造可... 乘加器是媒体数字信号处理器的关键运算部件。该文结合32位数字信号处理器芯片MD32开发(“863”计划)实践,提出了一种流水化可拆分的乘加器硬件实现结构,通过对乘法操作的流水处理实现了200MHz工作频率下的单周期吞吐量指标,通过构造可拆分的数据通道实现了对SIMD乘法指令的支持,支持4个通道16位媒体数据的并行乘法,大大提升了处理器的媒体处理性能。文中对所提出的乘加器体系结构,给出了理论依据和实验结果,通过MD32的流片实现得到了物理验证。 展开更多
关键词 乘加器 SIMD 流水化 可拆分
下载PDF
高性能累积乘法单元的设计
6
作者 段荣行 《信息技术》 2003年第8期12-14,18,共4页
叙述了 32× 32位符号数 无符号数累积乘法单元的设计。该累积乘法单元可实现 32× 32位、 32× 16位和 16× 16位符号数 无符号数相乘 ,分别需要 2个、 1个、 1个时钟周期。由于乘法器的设计中采用了修正的布斯 (boo... 叙述了 32× 32位符号数 无符号数累积乘法单元的设计。该累积乘法单元可实现 32× 32位、 32× 16位和 16× 16位符号数 无符号数相乘 ,分别需要 2个、 1个、 1个时钟周期。由于乘法器的设计中采用了修正的布斯 (booth)算法、符号数 无符号数处理机制、符号扩展处理电路以及特殊的部分积累加模块 ,所以乘法器的速度得到很大的提高 ,仅仅相当于 展开更多
关键词 累积乘法单元 布斯算法 部分积 符号扩展
下载PDF
一种嵌入于微处理器的8位乘加器的设计 被引量:3
7
作者 韩桂泽 胡越黎 向慧芳 《计算机测量与控制》 CSCD 2006年第5期651-654,共4页
给出了一种嵌入于微处理器,8bit×8bit+20bit并行MAC单元的设计;该设计可完成8bit整数或序数的乘法或乘加运算,具有整数乘加运算的饱和检测和饱和处理功能;设计中采用了一种新型Booth编码方法;对部分积压缩阵列进行了优化,将累加值... 给出了一种嵌入于微处理器,8bit×8bit+20bit并行MAC单元的设计;该设计可完成8bit整数或序数的乘法或乘加运算,具有整数乘加运算的饱和检测和饱和处理功能;设计中采用了一种新型Booth编码方法;对部分积压缩阵列进行了优化,将累加值作为一个部分积参与部分积压缩阵列的累加运算,节省了一级超前进位加法器;压缩阵列采用了一种新型4∶2压缩器,进一步缩短了延时,节省了面积。 展开更多
关键词 乘加器 乘法器 饱和处理 嵌入于微处理器
下载PDF
一种低延迟高吞吐率的浮点整型乘累加单元 被引量:1
8
作者 沈俊 沈海斌 虞玉龙 《计算机工程》 CAS CSCD 2013年第6期91-94,102,共5页
针对目前浮点运算单元在处理向量点乘运算时存在数据相关性的问题,提出一种低延迟单周期的累加单元结构。该结构用于7级流水的可配置乘累加单元,可兼容双精度浮点、双单精度浮点以及32位有符号数,且能对后置模块进行操作数隔离与门控时... 针对目前浮点运算单元在处理向量点乘运算时存在数据相关性的问题,提出一种低延迟单周期的累加单元结构。该结构用于7级流水的可配置乘累加单元,可兼容双精度浮点、双单精度浮点以及32位有符号数,且能对后置模块进行操作数隔离与门控时钟的低功耗处理。在Viterx-4平台上实验结果表明,该结构具有高性能、低延迟、单周期完成数据吞吐等特点,与使用Xilinx浮点IP的设计面积相比,时间积减少30%以上。 展开更多
关键词 浮点运算单元 乘累加 向量点乘 双精度 双单精度
下载PDF
一种旨在优化速度的多功能乘累加器设计
9
作者 张晓潇 陈杰 +1 位作者 韩亮 林川 《科学技术与工程》 2006年第13期1917-1920,共4页
介绍了一种40±16×16位高速乘累加/减器的设计。该乘累加/减单元支持有符号数、无符号数及混合符号数的乘法、乘累加/减运算,并支持多种舍入的乘法、乘累加/减运算。该单元采用了改进的Booth算法和Wallace树结构,简化了部分积... 介绍了一种40±16×16位高速乘累加/减器的设计。该乘累加/减单元支持有符号数、无符号数及混合符号数的乘法、乘累加/减运算,并支持多种舍入的乘法、乘累加/减运算。该单元采用了改进的Booth算法和Wallace树结构,简化了部分积的产生,及部分积符号的扩展;优化了Wallace树的连接结构,及后续多个操作数的处理次序,从而显著地提高了乘累加/减器的速度。该设计综合考虑了高性能通用DSP对乘累加/减器的要求,作为某高速高性能定点DSP的一部分,已经实现了RTL电路设计、功能仿真、和PC综合,并准备流片且进行FPGA系统开发板的芯片验证。 展开更多
关键词 高速 乘累加/减器 并行 BOOTH算法 WALLACE树
下载PDF
支持多种精度小数的运算单元设计
10
作者 冯寅翀 张盛兵 +1 位作者 黄嵩人 樊晓桠 《微电子学与计算机》 CSCD 北大核心 2012年第4期150-153,157,共5页
针对DSP在应用中大量的使用不同精度的小数运算,对数据运算单元进行详细设计.通过对Q15格式小数计算特点的分析,增加多精度累加型数据格式,满足乘累加过程中对于精度的要求.同时,对执行部件的时延进行分析评估后,合理的划分流水线,在满... 针对DSP在应用中大量的使用不同精度的小数运算,对数据运算单元进行详细设计.通过对Q15格式小数计算特点的分析,增加多精度累加型数据格式,满足乘累加过程中对于精度的要求.同时,对执行部件的时延进行分析评估后,合理的划分流水线,在满足DSP计算功能的同时,还能够达到较高的工作频率.通过典型的数字信号处理算法核心,对本设计性能进行量化分析.在TSMC 65nm的工艺条件下,其时钟频率达到500MHz. 展开更多
关键词 数字信号处理器 小数运算 Q格式小数 多精度累加型数据格式 乘累加单元 单指令多数据
下载PDF
新型的DSP处理器高速低功耗多功能乘累加单元(英文)
11
作者 高健 陈杰 《电子器件》 EI CAS 2006年第1期48-52,57,共6页
介绍了一种采用新型结构的应用于DSP处理器的多功能高速低功耗乘累加单元(MAC)。该设计采用了异步互锁流水线技术,极大的降低了功耗。在整个设计的关键路径即部分积产生和生成部分采用的互补部分积字校正(CPPWC)和三维压缩法(TDM)很好... 介绍了一种采用新型结构的应用于DSP处理器的多功能高速低功耗乘累加单元(MAC)。该设计采用了异步互锁流水线技术,极大的降低了功耗。在整个设计的关键路径即部分积产生和生成部分采用的互补部分积字校正(CPPWC)和三维压缩法(TDM)很好的优化了设计,提高了速度。嵌入该乘累加单元的DSP处理器采用SMIC0.18CMOS工艺进行了流片。经测试,该设计优于采用传统结构的同类设计,其时延为3.34ns,功耗为13.9247mW。 展开更多
关键词 乘累加单元 异步流水线 部分积字校正 三维压缩法
下载PDF
一种高速DSP中延迟优化的乘累加单元的设计与实现(英文)
12
作者 Sheraz Anjum 陈杰 李海军 《电子器件》 CAS 2007年第4期1375-1379,共5页
乘累加单元是任何数字信号处理器(DSP)数据通路中的一个关键部分.多年来,硬件工程师们一直倾注于其优化与改进.本文描述了一种速度优化的乘累加单元的设计与实现.本文的乘累加单元是为一种高速VLIW结构的DSP核设计,能够进行16×16+4... 乘累加单元是任何数字信号处理器(DSP)数据通路中的一个关键部分.多年来,硬件工程师们一直倾注于其优化与改进.本文描述了一种速度优化的乘累加单元的设计与实现.本文的乘累加单元是为一种高速VLIW结构的DSP核设计,能够进行16×16+40的无符号和带符号的二进制补码操作.在关键路径延迟上,本文的乘累加单元比其他任何使用相同或不同算数技术实现的乘累加单元都更优.本文的乘累加单元已成功使用于synopsys的工具,并与synopsys的Design Ware库中相同位宽的乘累加单元比较.比较结果表明,本文的乘累加单元比Design Ware库中的任何其他实现都要快,适合于在需要高吞吐率的DSP核中使用.注意:比较是在Design compiler中使用相同属性和开关下进行的. 展开更多
关键词 乘累加单元 改进的波兹编码 部分积 修整向量 Wallace树压缩器 进位保留加法器 进位传播加法器
下载PDF
New method for high performance multiply-accumulator design
13
作者 Bing-jie XIA Peng LIU Qing-dong YAO 《Journal of Zhejiang University-Science A(Applied Physics & Engineering)》 SCIE EI CAS CSCD 2009年第7期1067-1074,共8页
This study presents a new method of 4-pipelined high-performance split multiply-accumulator (MAC) architecture, which is capable of supporting multiple precisions developed for media processors. To speed up the design... This study presents a new method of 4-pipelined high-performance split multiply-accumulator (MAC) architecture, which is capable of supporting multiple precisions developed for media processors. To speed up the design further, a novel partial product compression circuit based on interleaved adders and a modified hybrid partial product reduction tree (PPRT) scheme are proposed. The MAC can perform 1-way 32-bit, 4-way 16-bit signed/unsigned multiply or multiply-accumulate operations and 2-way parallel multiply add (PMADD) operations at a high frequency of 1.25 GHz under worst-case conditions and 1.67 GHz under typical-case conditions, respectively. Compared with the MAC in 32-bit microprocessor without interlocked piped stages (MIPS), the proposed design shows a great advantage in speed. Moreover, an improvement of up to 32% in throughput is achieved. The MAC design has been fabricated with Taiwan Semiconductor Manufacturing Company (TSMC) 90-nm CMOS standard cell technology and has passed a functional test. 展开更多
关键词 设计制作 累加器 性能 32位微处理器 媒体处理器 半导体制造 电路部分 典型案例
原文传递
二进制张量分解法简化神经网络推理计算
14
作者 郝一帆 杜子东 支天 《高技术通讯》 CAS 2022年第7期687-695,共9页
针对现有的简化神经网络推理计算方法面临模型精度下滑及重训练带来的额外开销问题,本文提出一种在比特级减少乘积累加运算(MAC)的乘加操作数的二进制张量分解法(IBTF)。该方法利用张量分解消除多个卷积核之间由于权值比特位重复导致的... 针对现有的简化神经网络推理计算方法面临模型精度下滑及重训练带来的额外开销问题,本文提出一种在比特级减少乘积累加运算(MAC)的乘加操作数的二进制张量分解法(IBTF)。该方法利用张量分解消除多个卷积核之间由于权值比特位重复导致的计算重复,并保持计算结果不变,即无需重训练。在比特级简化模型计算的IBTF算法与量化、稀疏等数据级简化方法正交,即可以协同使用,从而进一步减少MAC计算量。实验结果表明,在多个主流神经网络中,相较于量化与稀疏后的模型,IBTF进一步使计算量减少了3.32倍,并且IBTF在不同卷积核大小、不同权值位宽及不同稀疏率的卷积运算中都发挥了显著的效果。 展开更多
关键词 神经网络 二进制张量分解(IBTF) 乘积累加运算(mac)
下载PDF
基于二维半导体的人工神经网络芯片 被引量:1
15
作者 马顺利 吴天祥 +17 位作者 陈新宇 王印 唐宏伟 姚玉婷 王言 朱子阳 邓嘉男 万景 陆叶 孙正宗 许子寒 刘安 吴晨健 张卫 柴扬 周鹏 任俊彦 包文中 《Science Bulletin》 SCIE EI CSCD 2022年第3期270-277,共8页
近些年,二维半导体由于其独特的原子层厚度和可调控带隙等优势受到学术和产业界越来越多的关注。本文基于晶團级二维硫化钼(MoS_(2))进行了大规模电路应用尝试,成功制备了世界上第一个集乘加单元(MAC)、存储单元和激活函数电路于一体的... 近些年,二维半导体由于其独特的原子层厚度和可调控带隙等优势受到学术和产业界越来越多的关注。本文基于晶團级二维硫化钼(MoS_(2))进行了大规模电路应用尝试,成功制备了世界上第一个集乘加单元(MAC)、存储单元和激活函数电路于一体的功能性MoS:人工神经网络(ANN)芯片该芯片的制备采用了与硅基工艺更为兼容的顶栅晶体管结构,在1片晶圓级MoS_(2)薄膜上集成了818个MoS_(2)晶体管,并成功演示了基于ANN电路的触觉感知识别应用.该研究不仅展示了二维半导体在大规模集成电路中应用潜力,而且探索了二维半导体在人工智能芯片中的应用。 展开更多
关键词 存储单元 人工智能 激活函数 二维半导体 大规模集成电路 触觉感知 硫化钼
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部