存内计算(Computing In Memory,CIM)在人工智能神经网络的卷积运算方面具有巨大的应用潜力。基于忆阻器阵列的多位存内计算由于具备写入速度快、与互补金属氧化物半导体(Complementary Metal Oxide Semiconductor,CMOS)工艺兼容等特点,...存内计算(Computing In Memory,CIM)在人工智能神经网络的卷积运算方面具有巨大的应用潜力。基于忆阻器阵列的多位存内计算由于具备写入速度快、与互补金属氧化物半导体(Complementary Metal Oxide Semiconductor,CMOS)工艺兼容等特点,有望成为解决“内存墙”的有效手段。然而,当前多位存内计算电路架构面临输出延时高和能耗大的问题,主要原因为传统感知放大器的性能制约,为此本文提出了一种低延时低能耗多位电流型感知放大器(Low-delay Low-power Multi-bit Current-mode Sense Amplifier,LLM-CSA),通过减少传统CSA电路工作状态数量、简化工作时序来优化功能;采用新型低位检测模块的电路设计思路,来多层次系统性地降低输出延时并优化能耗。使用中芯国际40 nm低漏电逻辑工艺(SMIC40 nm LL),利用Cadence电路设计平台,仿真验证所提LLM-CSA的功能和延时-能耗性能。通过对比分析发现:LLM-CSA比传统CSA输出延时降低1.42倍,能量消耗降低1.56倍。进一步地,以一种4 bit输入、4 bit权重、11 bit输出的忆阻器阵列多位存内计算架构为应用,对比验证所提LLM-CSA的性能:与基于传统CSA的存内计算系统相比,新架构延时降低1.18倍,能耗降低1.03倍。LLM-CSA的提出对促进感知放大器设计思路和忆阻器阵列存内计算架构的发展,具有一定的理论和现实意义。展开更多
现如今,由于人工智能的飞速发展,基于忆阻器的神经网络内存计算(processing in memory,PIM)架构吸引了很多研究者的兴趣,因为其性能远优于传统的冯·诺依曼计算机体系结构的性能.配备了支持功能单元的外围电路,忆阻器阵列可以以高...现如今,由于人工智能的飞速发展,基于忆阻器的神经网络内存计算(processing in memory,PIM)架构吸引了很多研究者的兴趣,因为其性能远优于传统的冯·诺依曼计算机体系结构的性能.配备了支持功能单元的外围电路,忆阻器阵列可以以高并行度以及相比于CPU和GPU更少的数据移动来处理一个前向传播.然而,基于忆阻器的内存计算硬件存在忆阻器的外围电路面积过大以及不容忽视的功能单元利用率过低的问题.提出了一种基于3D忆阻器阵列的神经网络内存计算架构FMC(function-pool based memristor cube),通过把实现功能单元的外围电路聚集到一起,形成一个功能单元池来供多个堆叠在其上的忆阻器阵列共享.还提出了一种针对基于3D忆阻器阵列的内存计算的数据映射策略,进一步提高功能单元的利用率并减少忆阻器立方体之间的数据传输.这种针对基于3D忆阻器阵列的内存计算的软硬件协同设计不仅充分利用了功能单元,并且缩短了互联电路、提供了高性能且低能耗的数据传输.实验结果表明:在只训练单个神经网络时,提出的FMC能使功能单元的利用率提升43.33倍;在多个神经网络训练任务的情况下,能提升高达58.51倍.同时,和有相同数目的Compute Array及Storage Array的2D-PIM比较,FMC所占空间仅为2D-PIM的42.89%.此外,FMC相比于2D-PIM有平均1.5倍的性能提升,并且有平均1.7倍的能耗节约.展开更多
忆阻器阵列(Memristor based Crossbar)在加速神经网络计算上有很好的效果。然而,忆阻器阵列会受到IR-Drop的影响,导致忆阻器阵列的计算精度下降。为此,提出一种方案来提高计算精度,该方案是基于对权值矩阵稀疏化以及对权值矩阵的行向...忆阻器阵列(Memristor based Crossbar)在加速神经网络计算上有很好的效果。然而,忆阻器阵列会受到IR-Drop的影响,导致忆阻器阵列的计算精度下降。为此,提出一种方案来提高计算精度,该方案是基于对权值矩阵稀疏化以及对权值矩阵的行向量进行聚类实现的。该方案首先通过分析IR-Drop对忆阻器阵列的影响,根据忆阻器阵列和权值矩阵的映射关系,对权值矩阵进行稀疏化训练,将受到较大IR-Drop影响的权值置零。然后对权值矩阵的行向量进行聚类,找到近似全零行向量将其权值置零,在保证零权值不变的前提下重新训练权值矩阵,接着删除全零行向量和全零列向量降低矩阵规模。最后在IR-Drop影响下计算权值矩阵行向量的权值损失,根据损失大小降序排列行向量得到新的权值矩阵,并映射到忆阻器阵列上。实验表明,经过此方案处理后,忆阻器阵列受到的IR-Drop显著降低,有效地提高了计算精度并且降低了硬件规模。展开更多
This paper conducts an analysis of HP model of a memristor and memory cells of a differential type memristor,formsa classic array of the memristor using the HP model,and does the stimulation of its storage capacity.Ba...This paper conducts an analysis of HP model of a memristor and memory cells of a differential type memristor,formsa classic array of the memristor using the HP model,and does the stimulation of its storage capacity.Based on differential typememristor cells,this paper proposes an improved crossbar array of the memristor,which can be applied in image storage.Bymeans of theoretical analysis and stimulation,this improved crossbar array of memristor has been proved to have bettergrayscale image storage capacity,and its peak signal-to-noise ratio(PSNR)has been improved by about30%.展开更多
文摘现如今,由于人工智能的飞速发展,基于忆阻器的神经网络内存计算(processing in memory,PIM)架构吸引了很多研究者的兴趣,因为其性能远优于传统的冯·诺依曼计算机体系结构的性能.配备了支持功能单元的外围电路,忆阻器阵列可以以高并行度以及相比于CPU和GPU更少的数据移动来处理一个前向传播.然而,基于忆阻器的内存计算硬件存在忆阻器的外围电路面积过大以及不容忽视的功能单元利用率过低的问题.提出了一种基于3D忆阻器阵列的神经网络内存计算架构FMC(function-pool based memristor cube),通过把实现功能单元的外围电路聚集到一起,形成一个功能单元池来供多个堆叠在其上的忆阻器阵列共享.还提出了一种针对基于3D忆阻器阵列的内存计算的数据映射策略,进一步提高功能单元的利用率并减少忆阻器立方体之间的数据传输.这种针对基于3D忆阻器阵列的内存计算的软硬件协同设计不仅充分利用了功能单元,并且缩短了互联电路、提供了高性能且低能耗的数据传输.实验结果表明:在只训练单个神经网络时,提出的FMC能使功能单元的利用率提升43.33倍;在多个神经网络训练任务的情况下,能提升高达58.51倍.同时,和有相同数目的Compute Array及Storage Array的2D-PIM比较,FMC所占空间仅为2D-PIM的42.89%.此外,FMC相比于2D-PIM有平均1.5倍的性能提升,并且有平均1.7倍的能耗节约.
文摘忆阻器阵列(Memristor based Crossbar)在加速神经网络计算上有很好的效果。然而,忆阻器阵列会受到IR-Drop的影响,导致忆阻器阵列的计算精度下降。为此,提出一种方案来提高计算精度,该方案是基于对权值矩阵稀疏化以及对权值矩阵的行向量进行聚类实现的。该方案首先通过分析IR-Drop对忆阻器阵列的影响,根据忆阻器阵列和权值矩阵的映射关系,对权值矩阵进行稀疏化训练,将受到较大IR-Drop影响的权值置零。然后对权值矩阵的行向量进行聚类,找到近似全零行向量将其权值置零,在保证零权值不变的前提下重新训练权值矩阵,接着删除全零行向量和全零列向量降低矩阵规模。最后在IR-Drop影响下计算权值矩阵行向量的权值损失,根据损失大小降序排列行向量得到新的权值矩阵,并映射到忆阻器阵列上。实验表明,经过此方案处理后,忆阻器阵列受到的IR-Drop显著降低,有效地提高了计算精度并且降低了硬件规模。
基金Scientific and Technological Innovation Programs of Higher Education Institutions in Shanxi Province(No.20151101)Shanxi Key R&D Plan(No.2016-40-2)+1 种基金Innovative Training Program for College Students in Shanxi Province(No.2016481)Natural Science Foundation of Shanxi Province(No.201701D121067)
文摘This paper conducts an analysis of HP model of a memristor and memory cells of a differential type memristor,formsa classic array of the memristor using the HP model,and does the stimulation of its storage capacity.Based on differential typememristor cells,this paper proposes an improved crossbar array of the memristor,which can be applied in image storage.Bymeans of theoretical analysis and stimulation,this improved crossbar array of memristor has been proved to have bettergrayscale image storage capacity,and its peak signal-to-noise ratio(PSNR)has been improved by about30%.