期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种带自适应学习率的综合随机梯度下降Q-学习方法 被引量:14
1
作者 金海东 刘全 陈冬火 《计算机学报》 EI CSCD 北大核心 2019年第10期2203-2215,共13页
在线强化学习中,值函数的逼近通常采用随机梯度下降(Stochastic Gradient Descent,SGD)方法.在每个时间步,SGD方法使用强化学习算法获取随机样本,计算损失函数的局部梯度,单次模型参数更新的计算量小,适合在线学习.但是,由于目标函数不... 在线强化学习中,值函数的逼近通常采用随机梯度下降(Stochastic Gradient Descent,SGD)方法.在每个时间步,SGD方法使用强化学习算法获取随机样本,计算损失函数的局部梯度,单次模型参数更新的计算量小,适合在线学习.但是,由于目标函数不同维度存在梯度差异,SGD方法会产生优化震荡,导致迭代次数增多,收敛速度变慢甚至不能收敛.本文提出一种带自适应学习率的综合随机梯度下降方法(Adaptive Learning Rate on Integrated Stochastic Gradient Descent,ALRI-SGD),对SGD做了两方面改进:(1)在基于参数预测的基础上,利用历史随机梯度信息综合计算当前时间步的更新梯度;(2)根据不同维度的历史梯度信息,动态计算每个维度的学习率.在一定的数学约束条件下,证明了ALRI-SGD方法的收敛性.把ALRI-SGD方法与基于线性函数逼近的离策略Q-学习算法结合,用于求解强化学习中经典的Mountain Car问题和平衡杆问题,并与基于SGD的Q-学习算法进行实验比较.实验结果表明,ALRI-SGD方法能动态匹配模型参数在不同维度上的梯度差异,并使学习率自动更新以适应不同维度的数据特征.ALRI-SGD方法在收敛效率和收敛稳定性两个方面都有提升. 展开更多
关键词 强化学习 综合随机梯度下降 自适应学习率 参数预测 Q-学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部