自主移动机器人(autonomous mobile robot,AMR)路径规划是货物搬运、仓储物流等领域的一项关键技术。当工厂内的工作环境发生变化时,AMR单纯使用强化学习算法重新学习最优路径的速度慢。针对此问题,在Q学习算法的基础上提出了一种策略...自主移动机器人(autonomous mobile robot,AMR)路径规划是货物搬运、仓储物流等领域的一项关键技术。当工厂内的工作环境发生变化时,AMR单纯使用强化学习算法重新学习最优路径的速度慢。针对此问题,在Q学习算法的基础上提出了一种策略迁移强化学习算法。该算法使用源任务保存的相邻状态转移和目标任务保存的相邻状态转移计算相似度。根据相似度的大小和权重选择性地迁移源任务的策略,并以一定概率进行随机探索和使用目标任务新学习的策略。所提算法的有效性在AMR合作搬运任务中得到了验证。与其他方法相比,该算法的启动能力更强,收敛速度更快。展开更多
文摘自主移动机器人(autonomous mobile robot,AMR)路径规划是货物搬运、仓储物流等领域的一项关键技术。当工厂内的工作环境发生变化时,AMR单纯使用强化学习算法重新学习最优路径的速度慢。针对此问题,在Q学习算法的基础上提出了一种策略迁移强化学习算法。该算法使用源任务保存的相邻状态转移和目标任务保存的相邻状态转移计算相似度。根据相似度的大小和权重选择性地迁移源任务的策略,并以一定概率进行随机探索和使用目标任务新学习的策略。所提算法的有效性在AMR合作搬运任务中得到了验证。与其他方法相比,该算法的启动能力更强,收敛速度更快。