一类随机方差缩减算法的分析与改进被引量：3

Analysis and improvement for a class of variance reduced methods

导出

摘要近年来,随机方差缩减类算法在求解机器学习中的大规模优化问题时得到了广泛应用.但是如何选择此类算法的合适步长依然是值得研究的问题.受启发于结合Barzilai-Borwein步长的随机方差缩减梯度(stochastic variance reduced gradient with Barzilai-Borwein step size,SVRG-BB)算法,本文针对方差缩减类算法提出基于局部Lipschitz常数估计的自适应步长,并通过构建一个极小极大化问题给出该步长应用于不同算法时的参数选取方法.然后将该步长与随机递归梯度算法(stochastic recursive gradient algorithm,SARAH)和随机方差缩减(stochastic variance reduced gradient,SVRG)算法相结合,分别提出结合自适应步长的随机递归梯度(SARAH with adaptive step size,SARAH-AS)方法和结合自适应步长的随机方差缩减梯度(SVRG with adaptive step size,SVRG-AS)算法,并且在强凸假设下证明以上算法点距离序列的线性收敛性质.此外,本文还提供一个新颖的视角揭示为什么SARAH+算法是有效的.在公开数据集上的数值实验结果表明本文提出的自适应步长在方差缩减类算法中表现良好. Stochastic variance reduced methods have recently surged into prominence for solving large scale optimization problems in machine learning.However,how to choose the step sizes is still a problem to work out.Inspired by SVRG-BB(stochastic variance reduced gradient with Barzilai-Borwein step size),we propose an adaptive step size which is based on local estimation of Lipschitz constant for variance reduced methods.A framework was given of how to select the crucial parameter for different algorithms in our step size by solving a minimax problem.Then we adapt this step size to SARAH(stochastic recursive gradient algorithm)and SVRG(stochastic variance reduced gradient),which leads to two algorithms SARAH-AS(SARAH with adaptive step size)and SVRG-AS(SVRG with adaptive step size),respectively.Both of them converge linearly in the strongly convex case.Furthermore,we provide a novel perspective to explore why SARAH+performs well in practice.Numerical experiments on standard datasets demonstrate the efficiency of our adaptive step size for stochastic variance reduced methods.

作者刘彦郭田德韩丛英 Yan Liu;Tiande Guo;Congying Han

机构地区中国科学院大学数学科学学院中国科学院大数据挖掘与知识管理重点实验室

出处《中国科学：数学》 CSCD 北大核心 2021年第9期1433-1450,共18页 Scientia Sinica：Mathematica

基金国家自然科学基金(批准号:11731013,11571014,11991022和U19B2040)资助项目。

关键词随机方差缩减类算法自适应步长线性收敛率 stochastic variance reduced methods adaptive step size linear convergence rate

分类号 O224 [理学—运筹学与控制论] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1DING Feng YANG HuiZhong LIU Fei.Performance analysis of stochastic gradient algorithms under weak conditions[J].Science in China(Series F),2008,51(9):1269-1280. 被引量：14
2Jian Gu,Xian-Tao Xiao.A Framework of Convergence Analysis of Mini-batch Stochastic Projected Gradient Methods[J].Journal of the Operations Research Society of China,2023,11(2):347-369. 被引量：1

二级参考文献3

1FengDING TongwenCHEN.Modeling and Identification of Multirate Systems[J].自动化学报,2005,31(1):105-122. 被引量：35
2丁锋,杨家本,丁韬.时变系统最小均方算法的性能分析(英文)[J].控制理论与应用,2001,18(3):433-437. 被引量：5
3丁锋,丁韬,杨家本,徐用懋.时变参数遗忘梯度估计算法的收敛性[J].自动化学报,2002,28(6):962-968. 被引量：16

共引文献13

1DING Feng,LIU Xiao-Ping.Auxiliary Model-based Stochastic Gradient Algorithm for Multivariable Output Error Systems[J].自动化学报,2010,36(7):993-998. 被引量：5
2丁锋.基于输出估计的多输入系统随机梯度估计算法[J].南京信息工程大学学报（自然科学版）,2010,2(6):481-488. 被引量：9
3丁锋.系统辨识(2):系统描述的基本模型[J].南京信息工程大学学报（自然科学版）,2011,3(2):97-117. 被引量：28
4丁锋.系统辨识(3):辨识精度与辨识基本问题[J].南京信息工程大学学报（自然科学版）,2011,3(3):193-226. 被引量：28
5丁锋.系统辨识(4):辅助模型辨识思想与方法[J].南京信息工程大学学报（自然科学版）,2011,3(4):289-318. 被引量：40
6丁锋.辨识方法的计算效率(1):递推算法[J].南京信息工程大学学报（自然科学版）,2012,4(4):289-300. 被引量：15
7丁锋.辨识方法的计算效率(2):迭代算法[J].南京信息工程大学学报（自然科学版）,2012,4(5):385-401. 被引量：15
8丁锋.辨识方法的计算效率(3):信息向量耦合算法[J].南京信息工程大学学报（自然科学版）,2012,4(6):481-495. 被引量：10
9胡志增,梁开福.基于共轭梯度迭代算法受控AR模型的参数辨识[J].吉首大学学报（自然科学版）,2016,37(6):29-33.
10Shen-Yi ZHAO,Yin-Peng XIE,Wu-Jun LI.On the convergence and improvement of stochastic normalized gradient descent[J].Science China(Information Sciences),2021,64(3):101-113. 被引量：1

同被引文献2

1DING Feng YANG HuiZhong LIU Fei.Performance analysis of stochastic gradient algorithms under weak conditions[J].Science in China(Series F),2008,51(9):1269-1280. 被引量：14
2史加荣,王丹,尚凡华,张鹤于.随机梯度下降算法研究进展[J].自动化学报,2021,47(9):2103-2119. 被引量：71

引证文献3

1李蝶.基于Polyak步长的方差缩减算法[J].科技资讯,2021,19(16):174-177. 被引量：1
2王福胜,李晓桐.基于Polyak步长的随机递归梯度算法[J].应用数学,2024,37(1):280-288.
3李晓桐,王福胜,乔晓云.基于自适应步长的随机递归梯度算法[J].太原师范学院学报（自然科学版）,2023,22(4):25-30.

二级引证文献1

1史鲁玉,王福胜.基于Polyak步长的快速临近随机方差缩减算法[J].太原师范学院学报（自然科学版）,2023,22(3):13-18.

1李红武,谢敏,张榕.一类非光滑凸优化问题的邻近梯度算法[J].运筹学学报,2021,25(1):61-72.
2杨军.非单调变分不等式黄金分割算法研究[J].应用数学和力学,2021,42(7):764-770. 被引量：2
3杨莹,张向聪,王磊,孙元.人工智能计算机视觉技术在电力系统中的应用[J].电力设备管理,2021(9):216-217. 被引量：5
4甄娜,王福胜.机器学习中随机递归梯度算法的步长规则[J].太原师范学院学报（自然科学版）,2020,19(4):6-10.
5杨薛钰,陈建平,傅启明,陆悠,吴宏杰.基于随机方差减小方法的DDPG算法[J].计算机工程与应用,2021,57(19):104-111. 被引量：2
6陈国茗,于腾腾,刘新为.带自适应学习率的加速随机方差缩减梯度法[J].数值计算与计算机应用,2021,42(3):215-225. 被引量：1
7陈菲.新课程背景下小学语文“读写结合”教学策略[J].中学生作文指导,2021(23):0050-0050.
8巫文婷.求解带扰动的线性方程组的贪婪随机Kaczmarz方法[J].同济大学学报（自然科学版）,2021,49(10):1466-1472. 被引量：1
9肖支才,汪秀莉,吴华丽.基于自适应鲁棒精确微分器的目标机动加速度估计[J].战术导弹技术,2021(2):48-54. 被引量：2
10吴启军,本刊(图).Sara Shakeel 坠入水晶梦幻世界[J].优雅,2021(10):62-62.

中国科学：数学

2021年第9期

浏览历史

内容加载中请稍等...

一类随机方差缩减算法的分析与改进被引量：3

参考文献2

二级参考文献3

共引文献13

同被引文献2

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一类随机方差缩减算法的分析与改进 被引量：3

参考文献2

二级参考文献3

共引文献13

同被引文献2

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一类随机方差缩减算法的分析与改进被引量：3