梯度有偏情形非光滑问题NAG的个体收敛性被引量：2

Individual Convergence of NAG with Biased Gradient in Nonsmooth Cases

下载PDF

导出

摘要随机优化方法已经成为处理大规模正则化和深度学习优化问题的首选方法,其收敛速率的获得通常都建立在目标函数梯度无偏估计的基础上,但对机器学习问题来说,很多现象都导致了梯度有偏情况的出现.与梯度无偏情形不同的是,著名的Nesterov加速算法NAG(Nesterov accelerated gradient)会逐步累积每次迭代中的梯度偏差,从而导致不能获得最优的收敛速率甚至收敛性都无法保证.近期的研究结果表明,NAG方法也是求解非光滑问题投影次梯度关于个体收敛的加速算法,但次梯度有偏对其影响的研究未见报道.针对非光滑优化问题,证明了在次梯度偏差有界的情况下,NAG能够获得稳定的个体收敛界,而当次梯度偏差按照一定速率衰减时,NAG仍然可获得最优的个体收敛速率.作为应用,得到了一种无需精确计算投影的投影次梯度方法,可以在保持收敛性的同时较快地达到稳定学习的精度.实验验证了理论分析的正确性及非精确方法的性能. Stochastic method has become the first choice for dealing with large-scale regularization and deep learning optimization problems.The acquisition of its convergence rate heavily depends on the unbiased gradient of objective functions.However,for machine learning problems,many scenarios can result in the appearance of biased gradient.In contrast to the unbiased gradient cases,the well-known Nesterov accelerated gradient(NAG)accumulates the error caused by the bias with the iteration.As a result,the optimal convergence will no longer hold and even the convergence cannot be guaranteed.Recent research shows that NAG is also an accelerated algorithm for the individual convergence of projection sub-gradient methods in non-smooth cases.However,until now,there is no report about the affect when the subgradient becomes biased.In this study,for non-smooth optimization problems,it is proved that NAG can obtain a stable individual convergence bound when the subgradient bias is bounded,and the optimal individual convergence can still be achieved while the subgradient errors decrease at an appropriate.As an application,an inexact projection subgradient method is obtained in which the projection needs not calculate accurately.The derived algorithm can approach the stable learning accuracy more quick while keeping the convergence.The experiments verify the correctness of theoretical analysis and the performance of inexact methods.

作者刘宇翔程禹嘉陶卿 LIU Yu-Xiang;CHENG Yu-Jia;TAO Qing(Department of Information Engineering,PLA Army Academy of Artillery and Air Defense,Hefei 230031,China)

机构地区中国人民解放军陆军炮兵防空兵学院信息工程系

出处《软件学报》 EI CSCD 北大核心 2020年第4期1051-1062,共12页 Journal of Software

基金国家自然科学基金(61673394)。

关键词机器学习 Nesterov加速方法随机优化梯度估计有偏个体收敛 machine learning Nesterov accelerated gradient stochastic optimization biased gradient individual convergence

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1陶卿,马坡,张梦晗,陶蔚.机器学习随机优化方法的个体收敛性研究综述[J].数据采集与处理,2017,32(1):17-25. 被引量：6
2陶卿,高乾坤,姜纪远,储德军.稀疏学习优化问题的求解综述[J].软件学报,2013,24(11):2498-2507. 被引量：23
3陶蔚,潘志松,储德军,陶卿.使用Nesterov步长策略投影次梯度方法的个体收敛性[J].计算机学报,2018,41(1):164-176. 被引量：16
4陶蔚,潘志松,朱小辉,陶卿.线性插值投影次梯度方法的最优个体收敛速率[J].计算机研究与发展,2017,54(3):529-536. 被引量：5

二级参考文献47

1Vapnik VN. Statistical Learning Theory. New York: Wiley-Interscience, 1998.
2Zhang T. Statistical behavior and consistency of classification methods based on convex risk minimization. Annals of Statistics, 2004,32(l):56-85. [doi: 10.1214/aos/1079120130].
3Zhang T. Statistical analysis of some multi-category large margin classification methods. Journal of Machine Learning Research, 2004,5:1225-1251.
4Wang J, Tao Q. Machine learning: The state of the art. IEEE Intelligent Systems, 2008,23(6):49-55. [doi: 10.1109/MIS.2008.107].
5Bennett KP, Parrado-Hemandez E. The interplay of optimization and machine learning research. Journal of Machine Learning Research, 2006,7:1265-1281.
6Tibshirani R. Regression shrinkage and selection via the lasso. Journal of Royal Statistical Society (Series B), 1996,58(l):267-288.
7Nesterov Y. Primal-Dual subgradient methods for convex problems. Mathematical Programming, 2009,120(l):221-259. [doi: 10. 1007/sl0107-007-0149-x].
8Bertsekas DP, Nedic A, Ozdaglar AE. Convex Analysis and Optimization. Belmont: Athena Scientific, 2003.
9Zinkevich M. Online convex programming and generalized infinitesimal gradient ascent. In: Proc. of the Int’l Conf. on Machine Learning. 2003. 928-936.
10Shalev-Shwartz S, Singer Y, Srebro N. Pegasos: Primal estimated sub-gradient solver for SVM. In: Proc. of the Int’l Conf. on Machine Learning. 2007. 807-814. [doi: 10.1145/1273496.1273598].

共引文献40

1邵言剑,陶卿,姜纪远,周柏.一种求解强凸优化问题的最优随机算法[J].软件学报,2014,25(9):2160-2171. 被引量：11
2姜纪远,夏良,章显,陶卿.一种具有O(1/T)收敛速率的稀疏随机算法[J].计算机研究与发展,2014,51(9):1901-1910. 被引量：3
3刘建伟,崔立鹏,刘泽宇,罗雄麟.正则化稀疏模型[J].计算机学报,2015,38(7):1307-1325. 被引量：64
4周柏,陶卿,储德军.基于随机步长具有最优瞬时收敛速率的稀疏随机优化算法[J].模式识别与人工智能,2015,28(10):876-885.
5易磊,潘志松,邱俊洋,薛胶,任会峰.在线学习的大规模网络流量分类研究[J].智能系统学报,2016,11(3):318-327. 被引量：3
6刘建伟,崔立鹏,罗雄麟.概率图模型的稀疏化学习[J].计算机学报,2016,39(8):1597-1611. 被引量：4
7徐金东,牟春晓,范宝德,张艳洁,童向荣,倪梦莹.图像的多尺度稀疏分解及其在遥感图像融合上的应用[J].烟台大学学报（自然科学与工程版）,2017,30(1):48-54. 被引量：5
8陶卿,马坡,张梦晗,陶蔚.机器学习随机优化方法的个体收敛性研究综述[J].数据采集与处理,2017,32(1):17-25. 被引量：6
9彭艺,董智超.基于竞价机制的认知无线蜂窝网D2D功率分配方法[J].计算机工程,2017,34(5):88-91. 被引量：2
10田猛,王先培,董政呈,朱国威,代荡荡,赵乐.基于拉格朗日乘子法的虚假数据攻击策略[J].电力系统自动化,2017,41(11):26-32. 被引量：15

同被引文献4

1程禹嘉,陶蔚,刘宇翔,陶卿.Heavy-Ball型动量方法的最优个体收敛速率[J].计算机研究与发展,2019,56(8):1686-1694. 被引量：10
2纪泽宇,张兴军,付哲,高柏松,李靖波.分布式深度学习框架下基于性能感知的DBS-SGD算法[J].计算机研究与发展,2019,56(11):2396-2409. 被引量：11
3宋杰,朱勇,许冰.批量减数更新方差缩减梯度下降算法BSUG[J].计算机工程与应用,2020,56(22):117-123. 被引量：6
4谢涛,张春炯,徐永健.基于历史梯度平均方差缩减的协同参数更新方法[J].电子与信息学报,2021,43(4):956-964. 被引量：5

引证文献2

1陇盛,陶蔚,张泽东,陶卿.基于AdaGrad的自适应NAG方法及其最优个体收敛性[J].软件学报,2022,33(4):1231-1243. 被引量：3
2王昕.梯度下降及优化算法研究综述[J].电脑知识与技术,2022,18(8):71-73. 被引量：6

二级引证文献9

1庚硕,黄鹤妹,刘瑾,杨棋,段文厚,曹慧银.基于梯度下降法的医院平均住院日内部优化路径研究[J].中国医院管理,2022,42(12):47-49. 被引量：2
2常英丽,张雪华,刘强.改进的卷积神经网络模型在人脸识别中的应用[J].电子制作,2022,30(24):42-45. 被引量：2
3侯晓明,邱亚峰.基于卷积神经网络与特征融合的天气识别方法[J].应用光学,2023,44(2):323-329. 被引量：1
4ASHIKUR RAHMAN MOHAMMAD,李军.基于Faster R-CNN的城市道路目标检测[J].电子技术与软件工程,2023(1):149-152. 被引量：1
5刘翔,李海荣.大数据平台下容器资源调度的优化算法研究[J].内蒙古科技大学学报,2023,42(1):29-34. 被引量：1
6岳有军,李勇飞,赵辉,王红君.双目视觉手眼标定的精度优化[J].组合机床与自动化加工技术,2023(7):162-165.
7张子桐,周群,佃钰林,官子超,印月,冷敏瑞,刘雪山.基于μPMU测量数据的配电网线路阻抗参数估计[J].中国电力,2023,56(8):157-165. 被引量：4
8丁庆松,孙昊,李强,刘明和,徐悦轩.基于迁移学习的肠衣质量检测[J].电子测量技术,2023,46(11):185-192.
9鲍蕾,陶蔚,陶卿.结合自适应步长策略和数据增强机制提升对抗攻击迁移性[J].电子学报,2024,52(1):157-169.

1夏浥尘,钱小英(指导).无界? 有界![J].金山,2020,0(3):165-166.
2刘旭辉,黄瑞坤,王刚.炉前板坯宽度校核模型开发与应用[J].冶金自动化,2018,42(5):52-55. 被引量：1
3陶蔚,潘志松,储德军,陶卿.使用Nesterov步长策略投影次梯度方法的个体收敛性[J].计算机学报,2018,41(1):164-176. 被引量：16
4本刊编辑部.CR几何中伪调和映射的若干问题[J].信阳师范学院学报（自然科学版）,2020,33(1).
5肖开乾,周莹,穆松,石亮,高海林.混凝土溶蚀加速实验方法综述[J].混凝土,2020(3):13-16. 被引量：7
6程禹嘉,陶蔚,刘宇翔,陶卿.Heavy-Ball型动量方法的最优个体收敛速率[J].计算机研究与发展,2019,56(8):1686-1694. 被引量：10
7刘恋,张磊.基于Bootstrap区间估计的InSAR同质点探测方法研究[J].测绘与空间地理信息,2020,43(2):96-98. 被引量：1
8一个无解的计算机问题[J].语数外学习（高中版）（上）,2019,0(12):53-53.
9程潘红,许墨函.光滑化方法及其应用概述[J].福建电脑,2019,35(12):1-4.
10李金良,孙世磊,冷峻,张玉增.基于损伤等效的拖拉机机罩频域振动疲劳加速试验研究[J].农业装备与车辆工程,2019,0(S01):223-225.

软件学报

2020年第4期

浏览历史

内容加载中请稍等...

梯度有偏情形非光滑问题NAG的个体收敛性被引量：2

参考文献4

二级参考文献47

共引文献40

同被引文献4

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

梯度有偏情形非光滑问题NAG的个体收敛性 被引量：2

参考文献4

二级参考文献47

共引文献40

同被引文献4

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

梯度有偏情形非光滑问题NAG的个体收敛性被引量：2