期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于三值估算法的深度双确定性策略梯度算法
1
作者 王文龙 张帆 +3 位作者 唐超 李徐 郝正阳 张帆扬 《智能计算机与应用》 2024年第5期75-82,共8页
深度强化学习算法在机器人控制领域应用越来越广泛,但用于连续动作空间的算法,如DDPG,一直存在估值高估的问题,在机器人控制领域应用尚不成熟。本文为了提高深度强化学习算法中目标值估值的准确性,得到更适用于机器人控制的深度强化学... 深度强化学习算法在机器人控制领域应用越来越广泛,但用于连续动作空间的算法,如DDPG,一直存在估值高估的问题,在机器人控制领域应用尚不成熟。本文为了提高深度强化学习算法中目标值估值的准确性,得到更适用于机器人控制的深度强化学习算法,提出了一种基于三值估算法的深度双确定性策略梯度算法,该算法采用三值估算法来估计目标评论家网络的估值,去计算目标值作为当前网络的评估标准,采用双确定性策略网络在当前时间步数下生成最优策略,采用更适用于机械臂深度强化学习控制的OU噪声加到动作策略中。实验证明,该算法在复杂模型和环境中能够表现更好的性能。 展开更多
关键词 深度强化学习 三值估算法 双确定性策略 机器人控制
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部