-
题名降低方差的深度确定性策略梯度算法
被引量:1
- 1
-
-
作者
赵国庆
徐君明
刘爱东
-
机构
海军航空大学岸防兵学院
-
出处
《兵工自动化》
2022年第6期41-46,共6页
-
基金
2020海军军事理论研究课题。
-
文摘
针对高方差现象导致训练过程不稳定、算法性能下降的问题,提出一种降低方差的深度确定性策略梯度算法(reduction variance deep deterministic policy gradient,RV-DDPG)。通过延迟更新目标策略的方法,减少误差出现次数,降低误差的累计;通过平滑目标策略的方法,减小单步误差,稳定方差。将RV-DDPG算法、传统深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)和目前广泛应用的异步优势行动者评论家算法(asynchronous advantage actor-critic,A3C)应用于Pendulum、Mountain Car Continues和Half Cheetah问题。实验结果表明:RV-DDPG具有更好的收敛性和稳定性,证明了该算法降低方差的有效性。
-
关键词
强化学习
DDPG
平滑目标策略
策略延迟更新
降低方差
-
Keywords
reinforcement learning
DDPG
smooth target strategy
policy delay update
reduction variance
-
分类号
TJ02
[兵器科学与技术—兵器发射理论与技术]
-