-
题名改进的基于嵌入式SoC卷积神经网络识别模型
被引量:5
- 1
-
-
作者
孙磊
肖金球
夏禹
顾敏明
-
机构
苏州科技大学电子与信息工程学院
苏州科技大学苏州市智能测控工程技术研究中心
-
出处
《计算机应用与软件》
北大核心
2020年第3期257-260,共4页
-
基金
江苏省产学研前瞻性联合基金项目(BY2011132)
江苏省研究生创新与教改项目(09150001)。
-
文摘
针对当前在FPGA上实现卷积神经网络模型时卷积计算消耗资源大,提高FPGA芯片性能代价较大等问题,提出一种改进的基于嵌入式SoC的优化设计方法。对卷积计算的实现方法和存储访问通道加以优化,以提高并行计算性能;将32位位宽的浮点数量化为16位定点数,加快前向传播的数据传输;结合硬件描述软件的高层次综合技术,将卷积神经网络映射到硬件平台成为一种同步数据流模型从而加快计算速度。通过实验证明,该方案较现有设计节约了89%的BRAM和72%的LUT,在工作频率为100 MHz的测试中,其处理速度比单独使用Cortex-A9的方案提升了42倍。
-
关键词
卷积神经网络
嵌入式系统
FPGA
定点数量化
-
Keywords
CNN
Embedded systems
FPGA
Fixed-point quantization
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名卷积神经网络的FPGA并行加速设计与实现
被引量:9
- 2
-
-
作者
满涛
郭子豪
曲志坚
-
机构
山东理工大学计算机科学与技术学院
-
出处
《电讯技术》
北大核心
2021年第11期1438-1445,共8页
-
基金
山东省自然科学基金资助项目(ZR2016FM18,ZR2017LF004)
山东省高等学校青年创新团队发展计划项目(2019KJN48)。
-
文摘
为提高目前硬件设备上运行卷积神经网络的速度和能效,针对主流的卷积神经网络提出了一种基于现场可编程门阵列(Field Programmable Gate Array,FPGA)的流水线并行加速方案,设计优化了数据存储模块、卷积计算模块、池化模块以及全连接模块,结合高层次综合技术构建了基于FPGA的卷积神经网络基本单元。为了降低加速系统的硬件开销,在保证卷积神经网络精度损失很小的前提下,采用数据量化的方式将网络参数从32位浮点数转化为16位定点数。系统测试使用MNIST数据集和CIFAR-10数据集,实验结果显示,所提出的卷积神经网络FPGA加速具有更快的识别效果,并且该方案在资源和功耗较少的情况下可以提供更好的性能,同时能够高效地利用FPGA上的硬件资源。
-
关键词
卷积神经网络
现场可编程门阵列
并行加速
高层次综合
定点数量化
-
Keywords
convolutional neural network
FPGA
parallel acceleration
high-level synthesis
fixed-point quantization
-
分类号
TN802
[电子电信—信息与通信工程]
-
-
题名基于FPGA的卷积神经网络图像识别算法研究
被引量:1
- 3
-
-
作者
贾亮
徐善博
邢轶博
-
机构
沈阳航空航天大学电子信息工程学院
-
出处
《电脑与电信》
2022年第12期58-61,97,共5页
-
文摘
目前在中央处理器(CPU)中,卷积神经网络存在速度慢、功耗高的缺点,针对深度学习中的卷积神经网络所需计算时间长、消耗资源多、卷积运算量大的问题,提出了使用现场可编程门阵列(FPGA)硬件平台对卷积神经网络图像识别系统进行加速,对卷积神经网络的进行算法改进和加速。设计了卷积层并行计算的流水线模块和池化层改进模块,还通过数据量化的方式减少FPGA资源耗费。最后,使用MINST数据集对算法进行评估,在Zynq7010和CPU上进行验证。实验结果表明,设计的方法资源占用率低,识别速度快,适合实际领域使用。
-
关键词
卷积神经网络
现场可编程门阵列
图像识别
并行加速
定点数量化
-
Keywords
convolution neural network
field programmable gate array
image recognition
parallel acceleration
fixed point quantification
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
TN791
[电子电信—电路与系统]
-