摘要
针对机器人在一些未知环境中使用强化学习中的Q学习算法做路径规划研究时收敛速度慢、规划路径长和搜索效率低等问题,提出一种改进强化学习算法。在Q学习算法中引入一种经验记忆力机制,能够基于从当前状态节点到起始点的最短距离的连续更新。该算法新设计的两个表的不同角色分配增强了机器人的自主学习能力,其中利用EM表来记录距离信息,反映了机器人对周围环境信息学习搜索的过程;指令表辅助Q表共同来帮助机器人规划路径并引导机器人安全地移动到终点。另外针对算法的过估计问题,设计了一种奖励机制,旨在防止机器人过度探索状态节点,避免在未知环境中盲目搜索。最后,利用Hermite曲线对路径进行平滑。从规划时间、迭代次数和路径长度的仿真结果表明,改进强化学习算法相较于Q学习算法在收敛速度和优化能力上均取得较大提高,能进一步提高机器人路径规划的效率。
作者
李威
张晓东
姜学峰
李健俊
张稳稳
LI Wei;ZHANG Xiao-dong;JIANG Xue-feng;LI Jian-jun;ZHANG Wen-wen
出处
《制造业自动化》
北大核心
2023年第3期148-151,172,共5页
Manufacturing Automation
基金
卷接设备电控系统深度安全技术研究与应用项目(2019330000340423)
工业互联网创新发展工程项目(TC190A449)。