一种组合型的深度学习模型学习率策略被引量：27

A Combinatory Form Learning Rate Scheduling for Deep Learning Model

下载PDF

导出

摘要一个设计良好的学习率策略可以显著提高深度学习模型的收敛速度,减少模型的训练时间.本文针对AdaGrad和AdaDec学习策略只对模型所有参数提供单一学习率方式的问题,根据模型参数的特点,提出了一种组合型学习策略:AdaMix.该策略为连接权重设计了一个仅与当前梯度有关的学习率,为偏置设计使用了幂指数型学习率.利用深度学习模型Autoencoder对图像数据库MNIST进行重构,以模型反向微调过程中测试阶段的重构误差作为评价指标,验证几种学习策略对模型收敛性的影响.实验结果表明,AdaMix比AdaGrad和AdaDec的重构误差小并且计算量也低,具有更快的收敛速度. A good learning rate scheduling can significantly improve the convergence rate of the deep learning model and reduce the training time. The AdaGrad and AdaDec learning strategies only provide a single form learning rate for all the parameters of the deep learning model. In this paper, AdaMix is proposed. According to the characteristics of the model parameters, and a learning rate form which is only based on the current epoch gradient is designed for the connection weights, a power exponential learning rate form is used for the bias. The test reconstruction error in the fine-turning phase of the deep learning model is used as the evaluation index. In order to verify the convergence of the deep learning based on different learning rate strategies, Autoencoder, a deep learning model, is trained to restructure the MNIST database. The experimental results show that Adamix has the lowest reconstruction error and minimum calculation compared with AdaGrad and AdaDec, so the deep learning model can quickly converge by using AdaMix.

作者贺昱曜李宝奇

机构地区西北工业大学航海学院

出处《自动化学报》 EI CSCD 北大核心 2016年第6期953-958,共6页 Acta Automatica Sinica

基金国家自然科学基金(61271143)资助~~

关键词深度学习学习率组合学习策略图像重构 Deep learning learning rate combined learning scheduling image reconstruction

分类号 TP391.41 [自动化与计算机技术—计算机应用技术] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献18

1Hinton G. Where do features come from? Cognitive Science, 2014, 38(6): 1078-1101.
2LeCun Y, Bengio Y, Hinton G. Deep learning. Nature, 2015, 521(7553): 436-444.
3Mnih V, Kavukcuoglu K, Silver D, Rusu A A, Veness J, Bellemare M G, Graves A, Riedmiller M, Fidjeland A K, Ostrovski G, Petersen S, Beattie C, Sadik A, Antonoglou I, King H, Kumaran D, Wierstra D, Legg S, Hassabis D. Human-level control through deep reinforcement learning. Nature, 2015, 518(7540): 529-533.
4Schmidhuber J. Deep learning in neural networks: an overview. Neural Networks, 2015, 61(7553): 85-117.
5高莹莹,朱维彬.深层神经网络中间层可见化建模[J].自动化学报,2015,41(9):1627-1637. 被引量：16
6乔俊飞,潘广源,韩红桂.一种连续型深度信念网的设计与应用[J].自动化学报,2015,41(12):2138-2146. 被引量：21
7Yu D, Deng L. Deep learning and its applications to signal and information processing. IEEE Signal Processing Maga- zine, 2011, 28(1): 145-154.
8Hinton G E, Salakhutdinov R R. Reducing the dimensional- ity of data with neural networks. Science, 2006, 313(5786): 504-507.
9Duchi J, Hazan E, Singer Y. Adaptive subgradient methods for online learning and stochastic optimization. The Journal of Machine Learning Research, 2011, 12:2121-2159.
10Senior A, Heigold G, Ranzato M A, Yang K. An empirical study of learning rates in deep neural networks for speech recognition. In: Proceedings of the 2013 IEEE International Conference on Acoustics, Speech, and Signal Processing. Vancouver, BC: IEEE, 2013. 6724-6728.

二级参考文献56

1Yoo H J. Deep convolution neural networks in computer vision: a review. IEIE Transactions on Smart Processing and Computing, 2015, 4(1): 35-43.
2Oquab M, Bottou L, Laptev I, Sivic J. Learning and transferring mid-level image representations using convolutional neural networks. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, OH: IEEE, 2014. 1717-1724.
3Zhang C, Zhang Z Y. Improving multiview face detection with multi-task deep convolutional neural networks. In: Proceedings of the 2014 IEEE Winter Conference on Applications of Computer Vision (WACV). Steamboat Springs, CO: IEEE, 2014. 1036-1041.
4Sainath T N, Kingsbury B, Saon G, Soltaua H, Mohamed A, Dahlb G, Ramabhadran R. Deep convolutional neural networks for large-scale speech tasks. Neural Networks, 2015, 64: 39-48.
5Deng L, Hinton G, Kingsbury B. New types of deep neural network learning for speech recognition and related applications: an overview. In: Proceedings of the 2013 International Conference on Acoustics, Speech and Signal Processing. Vancouver, Canada: IEEE, 2013. 8599-8603.
6Bengio S, Heigold G. Word embeddings for speech recognition. In: Proceedings of the 15th Conference of the International Speech Communication Association, Interspeech. Singapore: ISCA, 2014. 1053-1057.
7Le Q V, Mikolov T. Distributed representations of sentences and documents. In: Eprint Arxiv, 2014. 1188-1196.
8Kiros R, Zemel R S, Salakhutdinov R. A multiplicative model for learning distributed text-based attribute representations. In: Eprint Arxiv, 2014. 2348-2356.
9Lee C Y, Xie S N, Gallagher P, Zhang Z, Tu Z W. Deeply-supervised nets. In: Eprint Arvix, 2014. 562-570.
10Weston J, Ratle F, Mobahi H, Collobert R. Deep learning via semi-supervised embedding. Neural Networks: Tricks of the Trade. Berlin Heidelberg: Springer, 2012. 639-655.

共引文献33

1姚辉煌.氧化铅精矿压滤脱水的改进[J].世界有色金属,2000,25(4):42-43.
2王盈旭,韩红桂,郭民.一种基于改进型深度学习的非线性建模方法[J].信息与控制,2018,47(6):680-686. 被引量：4
3陈斌,胡平舸,屈丹.子空间域相关特征变换与融合的语音识别方法[J].西安交通大学学报,2016,50(4):60-67. 被引量：4
4仲训杲,徐敏,仲训昱,彭侠夫.基于多模特征深度学习的机器人抓取判别方法[J].自动化学报,2016,42(7):1022-1029. 被引量：31
5周风余,尹建芹,杨阳,张海婷,袁宪锋.基于时序深度置信网络的在线人体动作识别[J].自动化学报,2016,42(7):1030-1039. 被引量：18
6冯贺平,杨敬娜,吴梅梅.基于深度神经网络的身份识别研究[J].电脑知识与技术,2016,0(8):161-162. 被引量：1
7奚雪峰,周国栋.面向自然语言处理的深度学习研究[J].自动化学报,2016,42(10):1445-1465. 被引量：217
8陈莹,黄永彪,谢瑾.桥梁结构的未标记模态特征稀疏编码深度学习监测[J].计算机应用研究,2016,33(12):3725-3729. 被引量：1
9王功明,李文静,乔俊飞.基于PLSR自适应深度信念网络的出水总磷预测[J].化工学报,2017,68(5):1987-1997. 被引量：13
10李康,王福利,何大阔,贾润达.基于数据的湿法冶金全流程操作量优化设定补偿方法[J].自动化学报,2017,43(6):1047-1055. 被引量：6

同被引文献209

1张媛,秦勇,程晓卿,庞学苗,邢宗义.基于改进NARX神经网络的接触线表面不平顺与弓网接触力关联分析方法[J].中国铁道科学,2012,33(3):84-91. 被引量：7
2高强,阳武,李倩.基于空间信息的DBN图像分类快速训练模型[J].系统仿真学报,2015,27(3):549-558. 被引量：4
3李和明,李俊卿.电机中温度计算方法及其应用综述[J].华北电力大学学报（自然科学版）,2005,32(1):1-5. 被引量：69
4文新辉.时间序列神经网络预测方法[J].电子科学学刊,1994,16(5):456-462. 被引量：13
5方建立,应松,贾进.地质雷达在公路隧道超前地质预报中的应用[J].中国岩溶,2005,24(2):160-163. 被引量：30
6宋先海,顾汉明,肖柏勋.我国隧道地质超前预报技术述评[J].地球物理学进展,2006,21(2):605-613. 被引量：119
7贺竹磬,孙林岩.我国区域物流相对有效性分析[J].科研管理,2006,27(6):144-150. 被引量：37
8刘典政,冯晓云.基于LM神经网络模型的机车牵引力和制动力的计算[J].机车电传动,2007(3):20-23. 被引量：2
9李伟力,李守法,谢颖,丁树业.感应电动机定转子全域温度场数值计算及相关因素敏感性分析[J].中国电机工程学报,2007,27(24):85-91. 被引量：110
10刘向龙,李清泉.基于金字塔结构的海量路面影像破损统计模型[J].武汉大学学报（信息科学版）,2008,33(4):430-432. 被引量：7

引证文献27

1李宝奇,贺昱曜,郭元术,邱业绩.基于DBN的隧道地质超前预报自动解释算法[J].长安大学学报（自然科学版）,2017,37(3):90-96. 被引量：3
2乔俊飞,王功明,李晓理,韩红桂,柴伟.基于自适应学习率的深度信念网设计与应用[J].自动化学报,2017,43(8):1339-1349. 被引量：19
3银温社,胡杨升,董青青,易三莉,贺建峰.基于深度学习的细胞癌恶化程度预测方法研究[J].软件导刊,2018,17(3):11-14. 被引量：2
4蔡成涛,吴科君,严勇杰.基于优化YOLO方法机场跑道目标检测[J].指挥信息系统与技术,2018,9(3):37-41. 被引量：14
5廖梦纯.基于无人机航拍图像的破损井盖检测[J].工业控制计算机,2018,31(9):46-47. 被引量：2
6陈深进,薛洋,欧勇辉.基于无监督学习的实时公交动态调度的研究[J].重庆邮电大学学报（自然科学版）,2019,31(2):191-199. 被引量：5
7李楠.城市物流效率分析自适应DBN算法研究[J].计算机工程与应用,2017,53(12):9-15. 被引量：7
8李平舟,赵朗程.基于BP神经网络的国家稳定性研究[J].软件,2018,39(6):142-146. 被引量：4
9刘帆,刘鹏远,张峻宁,徐彬彬.一种改进的深度学习模型自适应学习率策略[J].兵工自动化,2019,38(1):72-77. 被引量：5
10陈深进,薛洋.基于改进卷积神经网络的短时公交客流预测[J].计算机科学,2019,46(5):175-184. 被引量：18

二级引证文献144

1朱小勇,陈胜.基于ResNet-ViT的海战多目标态势感知[J].信息与控制,2023,52(5):638-647.
2吴东隆.基于Markov-GNNM的煤炭需求量预测模型研究[J].煤炭经济研究,2020(6):27-31. 被引量：2
3朱江,李华健.基于YOLOv3的抓取检测网络[J].信息化研究,2022,48(1):19-24. 被引量：1
4岳希,梁云浩,何磊.基于改进YOLO算法的船舰目标检测DT-YOLO方法研究[J].成都信息工程大学学报,2022,37(5):533-537.
5吴均章.月季先接后插技术[J].林业科技开发,2000,14(2):49-49.
6易江.连续排放监测系统(一、发展进程)[J].现代科学仪器,2000,17(1):47-49. 被引量：6
7蒋超.基于深度学习的物体实时检测模块设计与在安卓系统上的实现[J].科学技术创新,2019(2):76-78.
8刘方园,王水花,张煜东.深度置信网络模型及应用研究综述[J].计算机工程与应用,2018,54(1):11-18. 被引量：49
9索明何,程乐.基于PLSR的深度信念网输出权值确定方法[J].控制工程,2018,25(4):668-676. 被引量：1
10王功明,乔俊飞,王磊.一种能量函数意义下的生成式对抗网络[J].自动化学报,2018,44(5):793-803. 被引量：15

1马艳东.一种基于AutoEncoder的RBF神经网络训练算法[J].中国科技信息,2015,0(9):59-60. 被引量：1
2甘露,臧洌,李航.基于DA-SVM的软件缺陷预测模型[J].计算机与现代化,2017(2):36-39. 被引量：2
3翟继友.基于深度置信网络的语义相关度计算模型[J].科学技术与工程,2014,22(32):58-62. 被引量：4
4原旭,杨镇楠,赵亮,陈志奎.基于AutoEncoder的增量式聚类算法[J].微电子学与计算机,2016,33(3):120-124. 被引量：5
5林少飞,盛惠兴,李庆武.基于堆叠稀疏自动编码器的手写数字分类[J].微处理机,2015,36(1):47-51. 被引量：14
6张乐,刘忠,张建强,任雄伟.基于自编码神经网络的装备体系评估指标约简方法[J].中南大学学报（自然科学版）,2013,44(10):4130-4137. 被引量：18
7林勇.基于FAHP的大学生综合素质评价系统设计[J].计算机与数字工程,2013,41(7):1108-1110. 被引量：10
8苗飞,任建文,汤国庆,魏俊姣.基于灰色聚类与证据合成的变压器状态评估[J].高压电器,2016,52(3):50-55. 被引量：11
9胡昭华,宋耀良.基于Autoencoder网络的数据降维和重构[J].电子与信息学报,2009,31(5):1189-1192. 被引量：28
10朱啸天,张艳珠,王凡迪.一种基于稀疏自编码网络的数据降维方法研究[J].沈阳理工大学学报,2016,35(5):39-43. 被引量：8

自动化学报

2016年第6期

浏览历史

内容加载中请稍等...

一种组合型的深度学习模型学习率策略被引量：27

参考文献18

二级参考文献56

共引文献33

同被引文献209

引证文献27

二级引证文献144

相关作者

相关机构

相关主题

浏览历史

一种组合型的深度学习模型学习率策略 被引量：27

参考文献18

二级参考文献56

共引文献33

同被引文献209

引证文献27

二级引证文献144

相关作者

相关机构

相关主题

浏览历史

一种组合型的深度学习模型学习率策略被引量：27