求解一类非光滑凸优化问题的相对加速SGD算法

Relatively accelerated stochastic gradient algorithm for a class of non-smooth convex optimization problem

下载PDF

导出

摘要一阶优化算法由于其计算简单、代价小,被广泛应用于机器学习、大数据科学、计算机视觉等领域,然而,现有的一阶算法大多要求目标函数具有Lipschitz连续梯度,而实际中的很多应用问题不满足该要求。在经典的梯度下降算法基础上,引入随机和加速,提出一种相对加速随机梯度下降算法。该算法不要求目标函数具有Lipschitz连续梯度,而是通过将欧氏距离推广为Bregman距离,从而将Lipschitz连续梯度条件减弱为相对光滑性条件。相对加速随机梯度下降算法的收敛性与一致三角尺度指数有关,为避免调节最优一致三角尺度指数参数的工作量,给出一种自适应相对加速随机梯度下降算法。该算法可自适应地选取一致三角尺度指数参数。对算法收敛性的理论分析表明,算法迭代序列的目标函数值收敛于最优目标函数值。针对Possion反问题和目标函数的Hessian阵算子范数随变量范数多项式增长的极小化问题的数值实验表明,自适应相对加速随机梯度下降算法和相对加速随机梯度下降算法的收敛性能优于相对随机梯度下降算法。 The first order method is widely used in the fields such as machine learning,big data science,computer vision,etc.A crucial and standard assumption for almost all first order methods is that the gradient of the objective function has to be globally Lipschitz continuous,which,however,can’t be satisfied by a lot of practical problems.By introducing stochasticity and acceleration to the vanilla GD(Gradient Descent)algorithm,a RASGD(Relatively Accelerated Stochastic Gradient Descent)algorithm is developed,and a wild relatively smooth condition rather than the gradient Lipschitz is needed to be satisfied by the objective function.The convergence of the RASGD is related to the UTSE(Uniformly Triangle Scaling Exponent).To avoid the cost of tuning this parameter,a ARASGD(Adaptively Relatively Accelerated Stochastic Gradient Descent)algorithm is further proposed.The theoretical convergence analysis shows that the objective function values of the iterates converge to the optimal value.Numerical experiments are conducted on the Poisson inverse problem and the minimization problem with the operator norm of Hessian of the objective function growing as a polynomial in variable norm,and the results show that the convergence performance of the ARASGD method and RASGD method is better than that of the RSGD method.

作者张文娟冯象初肖锋黄姝娟李欢 ZHANG Wenjuan;FENG Xiangchu;XIAO Feng;HUANG Shujuan;LI Huan(School of Sciences,Xi’an Technological University,Xi’an 710021,China;School of Mathematics and Statistics,Xidian University,Xi’an 710071,China;School of Computer Science and Engineering,Xi’an Technological University,Xi’an 710021,China)

机构地区西安工业大学基础学院西安电子科技大学数学与统计学院西安工业大学计算机科学与工程学院

出处《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第3期147-157,共11页 Journal of Xidian University

基金陕西省自然科学基础研究计划(2021-JM440) 国家自然科学基金(62171361) 陕西省重点研发计划(2022GY-119)。

关键词凸优化非光滑优化相对光滑随机规划梯度方法加速随机梯度下降 convex optimization nonsmooth optimization relatively smooth stochastic programming gradient method accelerated stochastic gradient descent

分类号 O24 [理学—计算数学]

引文网络
相关文献

参考文献1

1王勇,王喜媛,任泽洋.毫米波MIMO的DNN混合预编码梯度优化方法[J].西安电子科技大学学报,2022,49(1):202-207. 被引量：2

二级参考文献1

1耿烜,孙作雷,刘锋,马英红.块对角化的最小均方误差几何均值分解矢量预编码[J].西安电子科技大学学报,2013,40(2):207-212. 被引量：1

共引文献1

1刘继鹏,朱立,郭鹏飞,周壮.多用户视距MIMO通信系统混合波束成形技术[J].现代电子技术,2022,45(19):9-13.

1谢承宗,王禹贺,王佰多,李世明.基于GRU-FedAdam的工业物联网入侵检测方法[J].网络安全与数据治理,2024,43(2):9-15.
2陈建华,彭建文.非凸多分块优化的Bregman ADMM的收敛率研究[J].数学物理学报（A辑）,2024,44(1):195-208. 被引量：1
3陈永鑫,韩德仁.无约束优化一阶算法的几类加速技巧[J].计算数学,2024,46(2):213-231.
4马士谦.机器学习中的双层优化算法简介[J].计算数学,2024,46(2):129-143.
5张月露,蔡钢.Hilbert空间上关于变分不等式问题的Bregman外梯度算法[J].数学学报（中文版）,2024,67(3):599-610.
6孙铭洁,薄娟,魏龙宇,付宝月,李雪萌,董江宁,高飞.基于多参数MRI影像组学构建机器学习模型与直肠癌Ki-67表达相关性[J].安徽医学,2024,45(6):687-693.
7李远飞.具有边界反应的Forchheimer多孔介质流体的空间二择性[J].河南大学学报（自然科学版）,2023,53(6):738-746. 被引量：1
8郑棋超,诸铁宇,金明磊,金明生.磁场辅助连续梯度功能复合结构研抛工具研制[J].高技术通讯,2024,34(6):634-641.
9李祉赟,王湘美,马德乐.一种非精确非光滑信赖域算法[J].新疆师范大学学报（自然科学版）,2024,43(4):44-52.
10王兵贤,徐梅,张玲萍.热传导方程Robin系数反问题解的唯一性及正则化解的存在性[J].西北师范大学学报（自然科学版）,2024,60(2):26-28.

西安电子科技大学学报

2024年第3期

浏览历史

内容加载中请稍等...

求解一类非光滑凸优化问题的相对加速SGD算法

参考文献1

二级参考文献1

共引文献1

相关作者

相关机构

相关主题

浏览历史