-
题名基于三值估算法的深度双确定性策略梯度算法
- 1
-
-
作者
王文龙
张帆
唐超
李徐
郝正阳
张帆扬
-
机构
上海工程技术大学机械与汽车工程学院
-
出处
《智能计算机与应用》
2024年第5期75-82,共8页
-
基金
上海市科委生物医药领域科技支撑计划(17441901200)。
-
文摘
深度强化学习算法在机器人控制领域应用越来越广泛,但用于连续动作空间的算法,如DDPG,一直存在估值高估的问题,在机器人控制领域应用尚不成熟。本文为了提高深度强化学习算法中目标值估值的准确性,得到更适用于机器人控制的深度强化学习算法,提出了一种基于三值估算法的深度双确定性策略梯度算法,该算法采用三值估算法来估计目标评论家网络的估值,去计算目标值作为当前网络的评估标准,采用双确定性策略网络在当前时间步数下生成最优策略,采用更适用于机械臂深度强化学习控制的OU噪声加到动作策略中。实验证明,该算法在复杂模型和环境中能够表现更好的性能。
-
关键词
深度强化学习
三值估算法
双确定性策略
机器人控制
-
Keywords
deep reinforcement learning
three-value estimation method
double-deterministic strategy
robot control
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
TP242.6
[自动化与计算机技术—检测技术与自动化装置]
-