基于客户端-服务器的容错神经网络训练架构被引量：1

Fault-tolerant neural network training framework based on client-server

下载PDF

导出

摘要为了实现低功耗和实时推理,AIoT设备近年来被应用于深度学习中的多个领域.然而,一些制造工艺导致AIoT设备在推理时会出现软错误.对于具有大量计算的神经网络加速器来说,可能会导致大量的计算误差和巨大的预测精度损失,这对于像自主无人机这样精度敏感的应用来说是无法忍受的.而传统的容错技术(如三重模块化冗余)会带来相当大的功耗和性能损失.本文提出了一种客户端-服务器协同的容错神经网络训练框架.在训练中采用带有软错误的AIoT处理器作为客户端,然后服务器端通过AIoT设备的应用数据学习到计算错误.实验中选取了多个具有代表性的神经网络模型.相比于离线训练的模型,该方法训练的模型使神经网络的top5精度平均提高2.8%. In order to realize low power consumption and real-time inference,AIoT devices have been applied in many fields of deep learning in recent years.However,some manufacturing processes cause some soft errors on AIOT devices in inference.For a neural network accelerator with a large amount of computation,it may lead to a large amount of computing error and a huge loss of prediction accuracy,which is intolerable for precision-sensitive applications such as autonomous drones.However,conventional fault tolerance techniques such as triple modular redundancy can incur considerable power consumption and performance penalty.In this paper,a client-server collaborative fault-tolerant neural network training framework is proposed.In the training,an AIoT processor with soft errors is used as the client,and the server learns the on-site computing errors with the application data of AIoT processor.Several representative neural network models were selected in the experiment.Compared with the off-line training model,the model trained by this method increases the top5 accuracy of the neural network by an average of 2.8%.

作者何梦许达文 He Meng;Xu Dawen(School of Electronic Science&Applied Physics,Hefei University of Technology,Hefei 23009,Anhui,China)

机构地区合肥工业大学电子科学与应用物理学院

出处《微电子学与计算机》 2021年第10期73-78,共6页 Microelectronics & Computer

基金国家自然科学基金面上项目(61874124)。

关键词 AIoT设备神经网络加速器容错协同训练 AIoT devices neural network accelerator fault tolerance collaborative training

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献2

1杨梅,贾旭,殷浩东,孙福明.基于联合注意力孪生网络目标跟踪算法[J].仪器仪表学报,2021,42(1):127-136. 被引量：16
2赖远哲,陈向阳,李旭东,付星堡,曹倩倩.基于残差结构的GAN网络的显著性预测研究[J].微电子学与计算机,2021,38(8):95-100. 被引量：1

引证文献1

1王智捷,任健,廖磊.基于时空注意力机制和联合注意力的视觉凝视目标跟踪方法[J].微电子学与计算机,2022,39(11):45-53.

1《环境科学》连续9次荣获“中国最具国际影响力学术期刊”称号[J].环境科学,2021,42(9):4382-4382.
2薛磊,农丽萍,张文辉,林基明,王俊义.一种改进的图卷积网络半监督节点分类[J].计算机应用与软件,2021,38(10):153-158. 被引量：2
3王永贞.中学非连续性文本阅读教学研究[J].中学生作文指导,2021(34):0033-0033.
4潘华燕.浅析小学数学课堂中学生思维能力的培养和提升[J].女人坊,2021(20):40-40.
5刘明春,付皓,黄菊花,史鸿枫.基于驾驶员数据学习的自动驾驶车辆弯道转向控制研究[J].汽车技术,2021(10):7-15. 被引量：1
6雷时雨.刍议小学数学计算能力的培养策略[J].新教师,2021(9):49-50.
7赵建兵.小学数学教学中培养学生计算能力的策略[J].山海经,2021(29):0259-0259.
8闫梅.基于Docker容器化的Web渗透测试平台实现与应用[J].信息记录材料,2021,22(9):138-140. 被引量：3
9朱木清,文谧.基于离群点检测算法的无线网络动态数据完整性检测方法[J].自动化与仪器仪表,2021(9):34-37. 被引量：1
10无.【爱维达】发布新LOGO[J].数据中心建设+,2021(9):76-76.

微电子学与计算机

2021年第10期

浏览历史

内容加载中请稍等...

基于客户端-服务器的容错神经网络训练架构被引量：1

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于客户端-服务器的容错神经网络训练架构 被引量：1

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于客户端-服务器的容错神经网络训练架构被引量：1