期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
一种减小方差求解非光滑问题的随机优化算法 被引量:5
1
作者 朱小辉 陶卿 +1 位作者 邵言剑 储德军 《软件学报》 EI CSCD 北大核心 2015年第11期2752-2761,共10页
随机优化算法是求解大规模机器学习问题的高效方法之一.随机学习算法使用随机抽取的单个样本梯度代替全梯度,有效节省了计算量,但却会导致较大的方差.近期的研究结果表明:在光滑损失优化问题中使用减小方差策略,能够有效提高随机梯度算... 随机优化算法是求解大规模机器学习问题的高效方法之一.随机学习算法使用随机抽取的单个样本梯度代替全梯度,有效节省了计算量,但却会导致较大的方差.近期的研究结果表明:在光滑损失优化问题中使用减小方差策略,能够有效提高随机梯度算法的收敛速率.考虑求解非光滑损失问题随机优化算法COMID(composite objective mirror descent)的方差减小问题.首先证明了COMID具有方差形式的(O1T1/2+σ2/T1/2)收敛速率,其中,T是迭代步数,σ2是方差.该收敛速率保证了减小方差的有效性,进而在COMID中引入减小方差的策略,得到一种随机优化算法α-MDVR(mirror descent with variance reduction).不同于Prox-SVRG(proximal stochastic variance reduced gradient),α-MDVR收敛速率不依赖于样本数目,每次迭代只使用部分样本来修正梯度.对比实验验证了α-MDVR既减小了方差,又节省了计算时间. 展开更多
关键词 机器学习 随机算法 非光滑 方差 composite objective mirror descent(comid)
下载PDF
一种具有O(1/T)收敛速率的稀疏随机算法 被引量:3
2
作者 姜纪远 夏良 +1 位作者 章显 陶卿 《计算机研究与发展》 EI CSCD 北大核心 2014年第9期1901-1910,共10页
随机梯度下降(stochastic gradient descent,SGD)是一种求解大规模优化问题的简单高效方法,近期的研究表明,在求解强凸优化问题时其收敛速率可通过α-suffix平均技巧得到有效的提升.但SGD属于黑箱方法,难以得到正则化优化问题所期望的... 随机梯度下降(stochastic gradient descent,SGD)是一种求解大规模优化问题的简单高效方法,近期的研究表明,在求解强凸优化问题时其收敛速率可通过α-suffix平均技巧得到有效的提升.但SGD属于黑箱方法,难以得到正则化优化问题所期望的实际结构效果.另一方面,COMID(composite objective mirror descent)是一种能保证L1正则化结构的稀疏随机算法,但对于强凸优化问题其收敛速率仅为O(logT?T).主要考虑"L1+Hinge"优化问题,首先引入L2强凸项将其转化为强凸优化问题,进而将COMID算法和α-suffix平均技巧结合得到L1MD-α算法.证明了L1MD-α具有O(1?T)的收敛速率,并且获得了比COMID更好的稀疏性.大规模数据库上的实验验证了理论分析的正确性和所提算法的有效性. 展开更多
关键词 机器学习 随机优化 稀疏性 L1正则化 comid
下载PDF
一种求解强凸优化问题的最优随机算法 被引量:11
3
作者 邵言剑 陶卿 +1 位作者 姜纪远 周柏 《软件学报》 EI CSCD 北大核心 2014年第9期2160-2171,共12页
随机梯度下降(SGD)算法是处理大规模数据的有效方法之一.黑箱方法SGD在强凸条件下能达到最优的O(1/T)收敛速率,但对于求解L1+L2正则化学习问题的结构优化算法,如COMID(composite objective mirror descent)仅具有O(lnT/T)的收敛速率.提... 随机梯度下降(SGD)算法是处理大规模数据的有效方法之一.黑箱方法SGD在强凸条件下能达到最优的O(1/T)收敛速率,但对于求解L1+L2正则化学习问题的结构优化算法,如COMID(composite objective mirror descent)仅具有O(lnT/T)的收敛速率.提出一种能够保证稀疏性基于COMID的加权算法,证明了其不仅具有O(1/T)的收敛速率,还具有on-the-fly计算的优点,从而减少了计算代价.实验结果表明了理论分析的正确性和所提算法的有效性. 展开更多
关键词 机器学习 随机优化 强凸问题 混合正则化项 comid (composite objective mirror descent)
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部