期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
Cambricon-QR:a sparse and bitwise reproducible quantized training accelerator
1
作者 李楠 ZHAO Yongwei +7 位作者 ZHI Tian LIU Chang du zidong HU Xing LI Wei ZHANG Xishan LI Ling SUN Guangzhong 《High Technology Letters》 EI CAS 2024年第1期52-60,共9页
Quantized training has been proven to be a prominent method to achieve deep neural network training under limited computational resources.It uses low bit-width arithmetics with a proper scaling factor to achieve negli... Quantized training has been proven to be a prominent method to achieve deep neural network training under limited computational resources.It uses low bit-width arithmetics with a proper scaling factor to achieve negligible accuracy loss.Cambricon-Q is the ASIC design proposed to efficiently support quantized training,and achieves significant performance improvement.However,there are still two caveats in the design.First,Cambricon-Q with different hardware specifications may lead to different numerical errors,resulting in non-reproducible behaviors which may become a major concern in critical applications.Second,Cambricon-Q cannot leverage data sparsity,where considerable cycles could still be squeezed out.To address the caveats,the acceleration core of Cambricon-Q is redesigned to support fine-grained irregular data processing.The new design not only enables acceleration on sparse data,but also enables performing local dynamic quantization by contiguous value ranges(which is hardware independent),instead of contiguous addresses(which is dependent on hardware factors).Experimental results show that the accuracy loss of the method still keeps negligible,and the accelerator achieves 1.61×performance improvement over Cambricon-Q,with about 10%energy increase. 展开更多
关键词 quantized training sparse accelerator Cambricon-QR
下载PDF
基于真值表的函数自动生成的神经网络模型
2
作者 贺文凯 支天 +4 位作者 胡杏 张曦珊 张蕊 杜子东 郭崎 《高技术通讯》 CAS 北大核心 2024年第3期265-274,共10页
作为目前最常见的程序综合问题,示例编程通过用户提供的输入/输出示例生成程序,为编程能力不足的开发者提供了便利。近年来,示例编程已经被应用于Microsoft Office Excel办公软件的自动编程,以及勘探、测井、航空航天等领域。鉴于目前... 作为目前最常见的程序综合问题,示例编程通过用户提供的输入/输出示例生成程序,为编程能力不足的开发者提供了便利。近年来,示例编程已经被应用于Microsoft Office Excel办公软件的自动编程,以及勘探、测井、航空航天等领域。鉴于目前示例编程鲜有关于二进制流的研究,本文针对基于真值表函数自动生成问题具有函数表达式的语法符号序列中各语法符号的关系与它们的距离大小无关、函数表达式的生成语义规则与布尔向量函数采样的结果长度无关的特点,设计了一种神经网络模型和算法,在程序综合、功能等价和序列匹配的指标上分别取得了70.56%、64.66%、0.6355的结果,分别优于现有最先进的程序综合模型55.07%、49.70%、0.5690。 展开更多
关键词 真值表 神经网络 序列模型 示例编程 程序综合
下载PDF
基于自适应静态数据布局策略的深度学习张量程序自动生成框架
3
作者 樊哲 南子渊 +2 位作者 郝一帆 杜子东 陈云霁 《高技术通讯》 CAS 2023年第11期1160-1171,共12页
如何确定静态数据布局是深度学习张量程序自动生成框架面临的重大挑战。Ansor作为目前应用最广泛、最具前景的此类框架,其根据预先指定的单一静态数据布局策略,训练性能预测模型,依据该模型搜索最佳性能的张量程序。但其存在单一策略非... 如何确定静态数据布局是深度学习张量程序自动生成框架面临的重大挑战。Ansor作为目前应用最广泛、最具前景的此类框架,其根据预先指定的单一静态数据布局策略,训练性能预测模型,依据该模型搜索最佳性能的张量程序。但其存在单一策略非最优和性能预测模型不准确的问题。为此,本文提出基于自适应静态数据布局(AL)策略的深度学习张量程序自动生成框架AL-Ansor。AL-Ansor在搜索过程中自适应地选取多种静态数据布局策略,共同训练性能预测模型,从而搜索得到性能更高的张量程序。本文以32核Intel Xeon CPU为目标硬件平台,在多个卷积层上进行实验,结果表明,在同样的搜索次数下,相较于基于3种指定静态数据布局策略的Ansor,AL-Ansor生成的张量程序分别有13.81%、12.41%和16.59%的平均性能提升。 展开更多
关键词 深度学习 张量程序自动生成框架 静态数据布局策略 自适应策略 性能预测模型
下载PDF
基于国产PuDianNao芯片的向量函数库优化
4
作者 杨指政 杜子东 文渊博 《郑州大学学报(工学版)》 CAS 北大核心 2023年第1期31-37,共7页
目前国产人工智能处理器PuDianNao芯片上的向量数学函数只能依靠循环调用标量函数来实现,该方法性能比较低。基于PuDianNao芯片提出了3种优化方法。方法一为插值方法;方法二为SIMD加掩码方法;方法三基于PuDianNao的硬件阵列结构,使用VLI... 目前国产人工智能处理器PuDianNao芯片上的向量数学函数只能依靠循环调用标量函数来实现,该方法性能比较低。基于PuDianNao芯片提出了3种优化方法。方法一为插值方法;方法二为SIMD加掩码方法;方法三基于PuDianNao的硬件阵列结构,使用VLIW指令操作阵列中的每个处理单元,封装出SIMT编程模型,提出了暴露分支范围和分支扁平化的编程方法。对以上3种方法进行精度和性能测试,对比实验结果表明,方法三具有最好的精度和性能。使用方法三实现基于国产PuDianNao芯片的向量数学函数库PuDianNao-VecMath,解决了数学函数多分支结构难以向量化的难题。该函数库精度性能较好、功能稳定、运行正确,提供的接口包括取整函数、超越函数、比较函数、激活函数等常见基础数学库函数。在精度上,将函数定义域区间全数据作为输入,运算结果和标量函数在CPU i7运行的结果进行对比。结果表明,单精度版本最大ULP值为2,半精度版本最大ULP值为1。性能与使用标量循环相比有较大提高,单精度版本相对于标量循环平均加速比平均值为18.26,最大加速比为35.90;半精度版本平均加速比平均值为15.65,最大加速比为30.11。 展开更多
关键词 向量化函数 PuDianNao-VecMath 国产人工智能处理器 暴露分支范围和分支扁平化
下载PDF
DSNNs:learning transfer from deep neural networks to spiking neural networks 被引量:3
5
作者 Zhang Lei du zidong +1 位作者 Li Ling Chen Yunji 《High Technology Letters》 EI CAS 2020年第2期136-144,共9页
Deep neural networks(DNNs)have drawn great attention as they perform the state-of-the-art results on many tasks.Compared to DNNs,spiking neural networks(SNNs),which are considered as the new generation of neural netwo... Deep neural networks(DNNs)have drawn great attention as they perform the state-of-the-art results on many tasks.Compared to DNNs,spiking neural networks(SNNs),which are considered as the new generation of neural networks,fail to achieve comparable performance especially on tasks with large problem sizes.Many previous work tried to close the gap between DNNs and SNNs but used small networks on simple tasks.This work proposes a simple but effective way to construct deep spiking neural networks(DSNNs)by transferring the learned ability of DNNs to SNNs.DSNNs achieve comparable accuracy on large networks and complex datasets. 展开更多
关键词 DEEP leaning SPIKING NEURAL network(SNN) CONVERT METHOD spatially folded NETWORK
下载PDF
低面积低功耗的机器学习运算单元设计 被引量:2
6
作者 周聖元 杜子东 +2 位作者 刘道福 支天 陈云霁 《高技术通讯》 EI CAS 北大核心 2019年第1期12-18,共7页
随着机器学习(ML)算法的日益流行,研究人员提出了很多专用于机器学习算法的加速器。然而,这些加速器会被其特定用途的狭窄范围所限制。另外,尽管芯片制造工艺有所提高,但是待处理问题规模的急剧增大依然加剧了这些机器学习加速器的低效... 随着机器学习(ML)算法的日益流行,研究人员提出了很多专用于机器学习算法的加速器。然而,这些加速器会被其特定用途的狭窄范围所限制。另外,尽管芯片制造工艺有所提高,但是待处理问题规模的急剧增大依然加剧了这些机器学习加速器的低效程度。针对这种现象,本文研究了4种流行的机器学习算法——k-近邻算法(k-NN),k-均值算法(k-Means),支持向量机(SVM)和逻辑回归(LR),并对这些算法中最为耗时的运算部分进行了深入分析,此外,还针对数据位宽对运算精度、硬件开销的影响进行了分析。根据以上分析,本文设计了一款可以支持多种机器学习算法的运算单元,该运算单元混合使用16位浮点数和32位浮点数的运算器,实现了低面积、低功耗的需求。实验结果表明,本文提出的运算单元可以在几乎不损失正确率的情况下,减少69. 80%的总面积开销以及68. 98%的总功耗开销。 展开更多
关键词 机器学习(ML) 运算单元 加速器 低面积 低功耗
下载PDF
稀疏神经网络加速器设计 被引量:5
7
作者 周聖元 杜子东 陈云霁 《高技术通讯》 EI CAS 北大核心 2019年第3期222-231,共10页
针对日益增长的神经网络规模和不断变化的神经网络模型结构,提出了一款新型的稀疏神经网络加速器架构。该架构能够有效利用稀疏神经网络中的权值稀疏性和神经元稀疏性,进一步提升加速器处理神经网络模型时的运算速度。同时,该架构能够... 针对日益增长的神经网络规模和不断变化的神经网络模型结构,提出了一款新型的稀疏神经网络加速器架构。该架构能够有效利用稀疏神经网络中的权值稀疏性和神经元稀疏性,进一步提升加速器处理神经网络模型时的运算速度。同时,该架构能够支持逐元素乘法/加法等运算,从而进一步提高加速器的灵活性,高效支持并加速Resnet等新型的神经网络结构。实验结果显示,基于5个具有代表性神经网络模型,该架构相比于现有的先进的稀疏神经网络加速器有平均为2.57倍的加速比,同时针对Resnet-18和Resnet-50的BN层分别平均有4.40倍和4.57倍的加速比。 展开更多
关键词 神经网络 稀疏神经网络 加速器
下载PDF
Assembly language and assembler for deep learning accelerators 被引量:1
8
作者 Lan Huiying Wu Linyang +1 位作者 Han Dong du zidong 《High Technology Letters》 EI CAS 2019年第4期386-394,共9页
Deep learning accelerators(DLAs)have been proved to be efficient computational devices for processing deep learning algorithms.Various DLA architectures are proposed and applied to different applications and tasks.How... Deep learning accelerators(DLAs)have been proved to be efficient computational devices for processing deep learning algorithms.Various DLA architectures are proposed and applied to different applications and tasks.However,for most DLAs,their programming interfaces are either difficult to use or not efficient enough.Most DLAs require programmers to directly write instructions,which is time-consuming and error-prone.Another prevailing programming interface for DLAs is high-performance libraries and deep learning frameworks,which are easy to be used and very friendly to users,but their high abstraction level limits their control capacity over the hardware resources thus compromises the efficiency of the accelerator.A design of the programming interface is for DLAs.First various existing DLAs and their programming methods are analyzed and a methodology for designing programming interface for DLAs is proposed,which is a high-level assembly language(called DLA-AL),assembler and runtime for DLAs.DLA-AL is composed of a low-level assembly language and a set of high-level blocks.It allows experienced experts to fully exploit the potential of DLAs and achieve near-optimal performance.Meanwhile,by using DLA-AL,end-users who have little knowledge of the hardware are able to develop deep learning algorithms on DLAs spending minimal programming efforts. 展开更多
关键词 deep learning deep learning accelerator(DLA) assembly language programming language
下载PDF
二进制张量分解法简化神经网络推理计算
9
作者 郝一帆 杜子东 支天 《高技术通讯》 CAS 2022年第7期687-695,共9页
针对现有的简化神经网络推理计算方法面临模型精度下滑及重训练带来的额外开销问题,本文提出一种在比特级减少乘积累加运算(MAC)的乘加操作数的二进制张量分解法(IBTF)。该方法利用张量分解消除多个卷积核之间由于权值比特位重复导致的... 针对现有的简化神经网络推理计算方法面临模型精度下滑及重训练带来的额外开销问题,本文提出一种在比特级减少乘积累加运算(MAC)的乘加操作数的二进制张量分解法(IBTF)。该方法利用张量分解消除多个卷积核之间由于权值比特位重复导致的计算重复,并保持计算结果不变,即无需重训练。在比特级简化模型计算的IBTF算法与量化、稀疏等数据级简化方法正交,即可以协同使用,从而进一步减少MAC计算量。实验结果表明,在多个主流神经网络中,相较于量化与稀疏后的模型,IBTF进一步使计算量减少了3.32倍,并且IBTF在不同卷积核大小、不同权值位宽及不同稀疏率的卷积运算中都发挥了显著的效果。 展开更多
关键词 神经网络 二进制张量分解(IBTF) 乘积累加运算(MAC)
下载PDF
Chip Learning:从芯片设计到芯片学习 被引量:3
10
作者 陈云霁 杜子东 +2 位作者 郭崎 李威 谭懿峻 《中国科学院院刊》 CSSCI CSCD 北大核心 2022年第1期15-23,共9页
芯片是现代信息社会的关键基础设施,未来人机物三元融合的智能万物互联时代将需要大量不同种类的专用体系结构芯片。然而,芯片设计本身代价很高,具有设计周期长、过程非常复杂、专业门槛高的特点。因此,智能万物互联时代芯片需求多和芯... 芯片是现代信息社会的关键基础设施,未来人机物三元融合的智能万物互联时代将需要大量不同种类的专用体系结构芯片。然而,芯片设计本身代价很高,具有设计周期长、过程非常复杂、专业门槛高的特点。因此,智能万物互联时代芯片需求多和芯片设计代价高之间产生了巨大的矛盾。文章提出利用芯片学习(Chip Learning)来取代芯片设计以解决上述矛盾,即采用学习的方法来完成芯片从逻辑设计到物理设计的全流程。芯片学习的目标是通过学习使得芯片设计完全不需要专业知识和设计经验,可以在短时间、无人参与的情况下高效完成。 展开更多
关键词 芯片设计 人工智能 芯片学习 设计自动化
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部