一种修正学习率的梯度下降算法

A Gradient Descent Algorithm with Modified Learning Rate

下载PDF

导出

摘要近年来,随着神经网络的广泛应用,梯度下降算法成为神经网络调整参数的核心优化算法。随着SGDM、AdaGrad、RMPprop、Adam等算法被提出,神经网络的性能有了极大的提升。为改善Adam算法由极端学习率引起的泛化能力较差问题,利用梯度的指数加权平均对Adam算法中学习率进行修正,提出了MonAdam算法。通过在线学习框架,说明MonAdam算法具有O(√T)的遗憾界。经过大量实验在多种非凸函数和深度神经网络模型中将MonAdam算法与其他算法进行对比,结果表明该算法收敛性较好。 In recent years,with the wide application of neural networks,the gradient descent algorithm has become the core optimization algorithm for neural network adjustment parameters.With the introduction of SGDM,AdaGrad,RMPprop,Adam,etc.,the performance of neural networks has been greatly improved.In order to improve the poor generalization ability of Adam algorithm caused by extreme learning rate,the exponential weighted average of gradient is used to correct the learning rate in Adam,and MonAdam is proposed.Through the online learning framework,it shows that MonAdam has the regret bound of O(√T).After a large number of experiments,MonAdam is compared with other algorithms in a variety of non-convex functions and deep neural network models.The results show that the algorithm has better convergence.

作者姜文翰姜志侠孙雪莲 JIANG Wenhan;JIANG Zhixia;SUN Xueian(School of Mathematics and Statistics,Changchun University of Science and Technology,Changchun 130022)

机构地区长春理工大学数学与统计学院

出处《长春理工大学学报（自然科学版）》 2023年第6期112-120,共9页 Journal of Changchun University of Science and Technology(Natural Science Edition)

基金国家自然科学基金(11426045) 吉林省自然科学基金(YDZJ202201ZYTS519,YDZJ202201ZYTS585)。

关键词梯度下降算法 Adam算法收敛性遗憾界学习率 gradient descent algorithm Adam algorithm convergence regret bound learning rate

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1陈恩志,王春阳,李晨晨,吴夏铭.改进的LeNet-5网络在图像分类中的研究[J].长春理工大学学报（自然科学版）,2022,45(5):74-79. 被引量：2
2汪洋,傅洪亮,陶华伟,杨静,谢跃,赵力.基于决策边界优化域自适应的跨库语音情感识别[J].计算机应用,2023,43(2):374-379. 被引量：1
3史加荣,王丹,尚凡华,张鹤于.随机梯度下降算法研究进展[J].自动化学报,2021,47(9):2103-2119. 被引量：66

二级参考文献18

1付丽,孙红帆,杨勇,谷欣超,孙爽滋.基于贝叶斯分类器的图像分类技术[J].长春理工大学学报（自然科学版）,2009,32(1):132-134. 被引量：9
2孙爽滋,谷欣超,杨勇,陈小超.飞机图像的轮廓提取与多边形拟合研究[J].长春理工大学学报（自然科学版）,2009,32(3):447-449. 被引量：5
3陈振宏,兰艳艳,郭嘉丰,程学旗.基于差异合并的分布式随机梯度下降算法[J].计算机学报,2015,38(10):2054-2063. 被引量：19
4朱小辉,陶卿,邵言剑,储德军.一种减小方差求解非光滑问题的随机优化算法[J].软件学报,2015,26(11):2752-2761. 被引量：5
5张婷,李玉鑑,胡海鹤,张亚红.基于跨连卷积神经网络的性别分类模型[J].自动化学报,2016,42(6):858-865. 被引量：40
6焦李成,杨淑媛,刘芳,王士刚,冯志玺.神经网络七十年:回顾与展望[J].计算机学报,2016,39(8):1697-1716. 被引量：361
7李飞,高晓光,万开方.基于权值动量的RBM加速学习算法研究[J].自动化学报,2017,43(7):1142-1159. 被引量：11
8亢良伊,王建飞,刘杰,叶丹.可扩展机器学习的并行与分布式优化算法综述[J].软件学报,2018,29(1):109-130. 被引量：28
9李勇,林小竹,蒋梦莹.基于跨连接LeNet-5网络的面部表情识别[J].自动化学报,2018,44(1):176-182. 被引量：98
10林懿伦,戴星原,李力,王晓,王飞跃.人工智能研究的新前线：生成式对抗网络[J].自动化学报,2018,44(5):775-792. 被引量：82

共引文献66

1朱小勇,陈胜.基于ResNet-ViT的海战多目标态势感知[J].信息与控制,2023,52(5):638-647.
2胡欣然,雷良海,寇晓晨.地方政府债券发行期限影响因素--基于投资者信息不对称视角[J].系统工程,2020,38(2):122-132. 被引量：4
3周瑞敏,王瑞尧,司文杰,李志军.带有改进自适应动量因子的四容水箱DRNN控制系统设计[J].工业控制计算机,2021,34(1):19-22.
4史加荣,刘晨.基于双核范数鲁棒矩阵分解的遮挡图像恢复[J].山东科技大学学报（自然科学版）,2021,40(4):86-93. 被引量：1
5杨悦,谢辛,何蕾,胡敏.连分式插值结合卷积神经网络的超分辨率重建[J].合肥工业大学学报（自然科学版）,2021,44(8):1146-1152. 被引量：4
6李蝶.基于Polyak步长的方差缩减算法[J].科技资讯,2021,19(16):174-177. 被引量：1
7谢小磊,杨毅.求解非凸优化问题的一类带动量步的随机方差缩减算法[J].科技创新导报,2021,18(17):78-81.
8陈国茗,于腾腾,刘新为.带自适应学习率的加速随机方差缩减梯度法[J].数值计算与计算机应用,2021,42(3):215-225. 被引量：1
9周旭,鲁墨武,姜春英,叶长龙,王世超,孙万胤.改进的PSO-BP算法在工业机器人末端位姿误差补偿中的应用[J].信息与控制,2021,50(4):505-512. 被引量：13
10齐永强,李文鹏,郑跃军,李慧,王成见.地下水机器学习方法研究--水位监测数据驱动的区域补排边界识别[J].水文地质工程地质,2022,49(1):1-11. 被引量：2

1姜文翰,刘曜齐,姜志侠.一种关于有效步长约束的自适应算法[J].应用数学进展,2023,12(10):4248-4254.
2李康楠,吴雅琴,杜锋,张翔,王乙桥.基于卷积神经网络的岩爆烈度等级预测[J].煤田地质与勘探,2023,51(10):94-103.
3易运晖,骆苑新雨,杨文海,朱红.无源智能超表面辅助的多用户场景下资源分配算法研究[J].无线通信技术,2023,32(4):7-11.

长春理工大学学报（自然科学版）

2023年第6期

浏览历史

内容加载中请稍等...

一种修正学习率的梯度下降算法

参考文献3

二级参考文献18

共引文献66

相关作者

相关机构

相关主题

浏览历史