期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
降低方差的深度确定性策略梯度算法 被引量:1
1
作者 赵国庆 徐君明 刘爱东 《兵工自动化》 2022年第6期41-46,共6页
针对高方差现象导致训练过程不稳定、算法性能下降的问题,提出一种降低方差的深度确定性策略梯度算法(reduction variance deep deterministic policy gradient,RV-DDPG)。通过延迟更新目标策略的方法,减少误差出现次数,降低误差的累计... 针对高方差现象导致训练过程不稳定、算法性能下降的问题,提出一种降低方差的深度确定性策略梯度算法(reduction variance deep deterministic policy gradient,RV-DDPG)。通过延迟更新目标策略的方法,减少误差出现次数,降低误差的累计;通过平滑目标策略的方法,减小单步误差,稳定方差。将RV-DDPG算法、传统深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)和目前广泛应用的异步优势行动者评论家算法(asynchronous advantage actor-critic,A3C)应用于Pendulum、Mountain Car Continues和Half Cheetah问题。实验结果表明:RV-DDPG具有更好的收敛性和稳定性,证明了该算法降低方差的有效性。 展开更多
关键词 强化学习 DDPG 平滑目标策略 策略延迟更新 降低方差
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部