基于改进Q-Learning的移动机器人路径规划算法

Path planning algorithm of mobile robot based on improved Q-Learning

下载PDF

导出

摘要随着移动机器人在生产生活中的深入应用,其路径规划能力也需要向快速性和环境适应性兼备发展。为解决现有移动机器人使用强化学习方法进行路径规划时存在的探索前期容易陷入局部最优、反复搜索同一区域,探索后期收敛率低、收敛速度慢的问题,本研究提出一种改进的Q-Learning算法。该算法改进Q矩阵赋值方法,使迭代前期探索过程具有指向性,并降低碰撞的情况;改进Q矩阵迭代方法,使Q矩阵更新具有前瞻性,避免在一个小区域中反复探索;改进随机探索策略,在迭代前期全面利用环境信息,后期向目标点靠近。在不同栅格地图仿真验证结果表明,本文算法在Q-Learning算法的基础上,通过上述改进降低探索过程中的路径长度、减少抖动并提高收敛的速度,具有更高的计算效率。 With the in-depth application of mobile robot in production and life,its path planning ability also needs to develop to both rapidity and environmental adaptability.In order to solve the problems existing in the existing mobile robot path planning using reinforcement learning methods,which are easy to fall into local optimization in the early stage of exploration,repeatedly search the same area,and explore the late convergence rate and slow convergence rate,an improved Q-Learning algorithm is proposed in this study.The algorithm improves the Q matrix assignment method to make the exploration process directional in the early iteration and reduces the collision situation;the Q matrix iterative method is improved to make the Q matrix update forward-looking and avoid repeated exploration in a small area;the random exploration strategy is improved to make full use of environmental information in the early iteration and close to the target point in the later stage.The simulation results of different raster maps show that the algorithm in this paper has higher computational efficiency by reducing the path length,reducing jitter and improving the speed of convergence based on the Q-Learning algorithm.

作者王立勇王弘轩苏清华王绅同张鹏博 Wang Liyong;Wang Hongxuan;Su Qinghua;Wang Shentong;Zhang Pengbo(Key Laboratory of Modern Measurement and Control Technology,Ministry of Education,Beijing Information Science and Technology University,Beijing 100192,China)

机构地区北京信息科技大学现代测控技术教育部重点实验室

出处《电子测量技术》北大核心 2024年第9期85-92,共8页 Electronic Measurement Technology

基金基础加强计划基金(2021JCJQJJ0022) 国家自然科学基金(52175074)项目资助。

关键词路径规划强化学习移动机器人 Q-Learning算法 ε-decreasing策略 path planning reinforcement learning mobile robot Q-Learning algorithm ε-decreasing strategy

分类号 TN711.1 [电子电信—电路与系统] TP242.6 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献8

1李培英.基于改进遗传算法的移动机器人路径规划[J].国外电子测量技术,2022,41(6):38-44. 被引量：12
2田晓航,霍鑫,周典乐,赵辉.基于蚁群信息素辅助的Q学习路径规划算法[J].控制与决策,2023,38(12):3345-3353. 被引量：6
3薛颂东,余欢.改进蚁群与动态Q学习融合的机器人路径规划[J].计算机系统应用,2023,32(8):189-197. 被引量：1
4尹旷,王红斌,方健,莫文雄,叶建斌,张宇.基于强化学习的移动机器人路径规划优化[J].电子测量技术,2021,44(10):91-95. 被引量：11
5段建民,陈强龙.利用先验知识的Q-Learning路径规划算法研究[J].电光与控制,2019,26(9):29-33. 被引量：11
6王慧,秦广义,夏鹏,杨春梅,王刚.基于改进强化学习算法的移动机器人路径规划研究[J].计算机应用与软件,2022,39(7):269-274. 被引量：2
7李威,张晓东,姜学峰,李健俊,张稳稳.基于改进强化学习的机器人路径规划研究[J].制造业自动化,2023,45(3):148-151. 被引量：6
8许宏鑫,吴志周,梁韵逸.基于强化学习的自动驾驶汽车路径规划方法研究综述[J].计算机应用研究,2023,40(11):3211-3217. 被引量：5

二级参考文献56

1李卫硕,孙剑,陈伟.基于BP神经网络机器人实时避障算法[J].仪器仪表学报,2019,40(11):204-211. 被引量：38
2Yunfei ZHANG,Yanjun WANG,Haoxiang LANG,Ying WANG,Clarence W.DE SILVA.Visual Avoidance of Collision with Randomly Moving Obstacles through Approximate Reinforcement Learning[J].Instrumentation,2019,6(3):59-66. 被引量：1
3于红斌,李孝安.基于栅格法的机器人快速路径规划[J].微电子学与计算机,2005,22(6):98-100. 被引量：63
4宋清昆,胡子婴.基于经验知识的Q-学习算法[J].自动化技术与应用,2006,25(11):10-12. 被引量：7
5宋勇,李贻斌,李彩虹.移动机器人路径规划强化学习的初始化[J].控制理论与应用,2012,29(12):1623-1628. 被引量：26
6朱美强,李明,程玉虎,张倩,王雪松.基于拉普拉斯特征映射的启发式Q学习[J].控制与决策,2014,29(3):425-430. 被引量：6
7霍凤财,迟金,黄梓健,任璐,孙勤江,陈建玲.移动机器人路径规划算法综述[J].吉林大学学报（信息科学版）,2018,36(6):639-647. 被引量：148
8张福海,李宁,袁儒鹏,付宜利.基于强化学习的机器人路径规划算法[J].华中科技大学学报（自然科学版）,2018,46(12):65-70. 被引量：46
9辛煜,梁华为,杜明博,梅涛,王智灵,江如海.一种可搜索无限个邻域的改进A*算法[J].机器人,2014,36(5):627-633. 被引量：99
10谈自忠.机器人学与自动化的未来发展趋势[J].中国科学院院刊,2015,30(6):772-774. 被引量：9

共引文献45

1赵吉祥,宋新新,潘志远,王璐璐,李壮壮.协调电容器灵活度和复杂度矛盾的变电站无功优化配置[J].电子测量技术,2023,46(22):116-121. 被引量：1
2邓修朋,崔建明,李敏,张小军,宋戈.深度强化学习在机器人路径规划中的应用[J].电子测量技术,2023,46(6):1-8. 被引量：4
3张博,黄山,张浛芮,李应昆,涂海燕.基于强化学习的艾灸机器人温度控制策略研究[J].电子测量技术,2022,45(24):60-66. 被引量：1
4刘虹庆,王世民.基于强化学习的车辆路径规划问题研究[J].计算机应用与软件,2021,38(8):303-308. 被引量：8
5张俊,朱庆伟,严俊杰,温波.改进强化学习算法的UAV室内三维航迹规划[J].计算机工程与应用,2021,57(16):175-181. 被引量：2
6曾柏森,钟勇,牛宪华.基于因子分解机用于安全探索的Q表初始化方法[J].计算机应用,2022,42(1):209-214.
7王杨斌,章伟,王为科,胡陟.改进Informed-RRT^(*)的动态环境路径规划算法[J].电光与控制,2022,29(5):28-32. 被引量：15
8杨秀霞,高恒杰,刘伟,张毅.基于阶段Q学习算法的机器人路径规划[J].兵器装备工程学报,2022,43(5):197-203. 被引量：6
9杨云,刘婷婷.基于机器学习的农业机器人滑移量计算及路径规划[J].农机化研究,2022,44(9):264-268. 被引量：1
10段书用,章霖鑫,韩旭,刘桂荣.具有光滑-直行功能的Q-Learning路径优化算法[J].机械工程学报,2022,58(11):72-87.

1张扬.《飞行器气动特性分析》课程教学策略探索[J].中国科技经济新闻数据库教育,2024(9):0182-0185.
2刘昊,曲文韬,张达,李超,李清泉.基于时序Q-learning算法的主网变电站继电保护故障快速定位方法[J].微型电脑应用,2024,40(8):134-137.
3简金宝,代钰,尹江华.分裂可行性问题的一个惯性共轭梯度投影法[J].数学物理学报（A辑）,2024,44(4):1066-1079.
4聂佳琳,龙宪军.求解非光滑鞍点问题的黄金比率原始对偶算法[J].数学物理学报（A辑）,2024,44(4):1080-1091.
5郭帅哲,高建花,计卫星.基于混合精度的分布式GMRES算法优化[J].计算机科学,2024,51(9):15-22.
6张兴斌,张家臻,庄艺斌,李晓东,冯长中,易桂香.一种计算预应力构件作用力的迭代差分方法[J].工业建筑,2024,54(8):157-162.
7张鑫,王旦霞,张建文,贾宏恩.变密度Ericksen-Leslie方程的高效数值算法及误差分析[J].重庆师范大学学报（自然科学版）,2024,41(3):79-88.
8陈雅莉,潘友林,刘耿耿.基于离散变邻域蜉蝣优化的装配作业车间调度算法[J].计算机科学,2024,51(9):283-289.
9罗伟,卢茜,徐长节,陈静瑜,陶智,姜智予.考虑地震效应和坡顶超载的多级边坡稳定性非线性能耗分析[J].中国科学：技术科学,2024,54(8):1625-1636.

电子测量技术

2024年第9期

浏览历史

内容加载中请稍等...

基于改进Q-Learning的移动机器人路径规划算法

参考文献8

二级参考文献56

共引文献45

相关作者

相关机构

相关主题

浏览历史