将机械臂避障路径规划问题置于强化学习的框架当中,采用深度Q学习的方法训练策略以规划路径,使得机械臂能够在空间中存在障碍物的情况下实现避障抓捕。生成的策略以神经网络的形式表示,通过经验回放和目标网络的方法解决以神经网络拟合...将机械臂避障路径规划问题置于强化学习的框架当中,采用深度Q学习的方法训练策略以规划路径,使得机械臂能够在空间中存在障碍物的情况下实现避障抓捕。生成的策略以神经网络的形式表示,通过经验回放和目标网络的方法解决以神经网络拟合Q函数时网络难以收敛的问题。最后在Mu Jo Co仿真环境上验证了该方法的有效性。展开更多
文摘将机械臂避障路径规划问题置于强化学习的框架当中,采用深度Q学习的方法训练策略以规划路径,使得机械臂能够在空间中存在障碍物的情况下实现避障抓捕。生成的策略以神经网络的形式表示,通过经验回放和目标网络的方法解决以神经网络拟合Q函数时网络难以收敛的问题。最后在Mu Jo Co仿真环境上验证了该方法的有效性。