基于启发式强化学习的移动机器人路径规划算法研究被引量：2

Research on Path Planning Algorithm of Mobile Robot Based on Heuristic Reinforcement Learning

下载PDF

导出

摘要针对移动机器人采用强化学习方法进行路径规划时存在的学习效率低及收敛速度慢等问题,提出一种改进的Q-learning算法。首先提出动态动作集策略,根据机器人当前点与终点的位置来选择其动作集;然后在算法中加入启发式奖惩函数,使得机器人采取不同的动作收获不同的奖励。由此来改进算法,进而提高算法的学习效率,加快算法收敛。最后在栅格环境下进行仿真实验,结果表明本文改进算法较传统的Q-learning算法,很大程度上加快了算法的收敛速度。 Aiming at the problems of low learning efficiency and slow convergence speed in path planning of mobile robot us⁃ing Reinforcement Learning method,an improved Q-learning algorithm is proposed.Firstly,a dynamic action set strategy is pro⁃posed,which selects the action set according to the position of the robot's current point and end point;Then the heuristic reward and punishment function is added to the algorithm to make the robot take different actions and gain different rewards.Therefore,we can improve the algorithm,improve the learning efficiency of the algorithm and speed up the convergence of the algorithm.Finally,the simulation experiment is carried out in the grid environment.The results show that the improved algorithm greatly speeds up the convergence speed of the algorithm compared with the traditional Q-learning algorithm.

作者潘国倩周新志 Pan Guoqian;Zhou Xinzhi(College of Electronics and Information Engineering,Sichuan University,Chengdu 610065)

机构地区四川大学电子信息学院

出处《现代计算机》 2022年第10期57-61,共5页 Modern Computer

基金中国民用航空局民航联合研究基金(U1933123)。

关键词移动机器人路径规划 Q-learning算法 mobile robot path planning Q-learning algorithm

分类号 TP242 [自动化与计算机技术—检测技术与自动化装置] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1张福海,李宁,袁儒鹏,付宜利.基于强化学习的机器人路径规划算法[J].华中科技大学学报（自然科学版）,2018,46(12):65-70. 被引量：46
2彭玲玲,刘凯.基于改进Q-learning的移动机器人路径规划应用研究[J].中国储运,2019(8):149-150. 被引量：3
3徐晓苏,袁杰.基于改进强化学习的移动机器人路径规划方法[J].中国惯性技术学报,2019,27(3):314-320. 被引量：43
4宋勇,李贻斌,李彩虹.移动机器人路径规划强化学习的初始化[J].控制理论与应用,2012,29(12):1623-1628. 被引量：25
5刘志荣,姜树海.基于强化学习的移动机器人路径规划研究综述[J].制造业自动化,2019,41(3):90-92. 被引量：15

二级参考文献21

1邱育红.GIS空间分析中两种改进的路径规划算法[J].计算机系统应用,2007,16(7):33-35. 被引量：6
2LEE D W,SEO S W,SIM K B. Online evolution for cooperative behavior in group robot systems[J].International Journal of Control,Automation,and Systems,2008,(02):282-287.
3SCHAAL S,ATKESON C. Learning control in robotics[J].IEEE Robotics and Automation Magazine,2010,(03):20-29.
4ANDERSEN K T,ZENG Y,CHRISTENSEN D D. Experiments with online reinforcement learning in real-time strategy games[J].Applied Artificial Intelligence,2009,(09):855-871.
5GASKETT C. Q-Learning for Robot Control[D].Canberra:The Australian National University,2002.
6DUNG L T,KOMEDA T,TAKAGI M. Reinforcement learning for pomdp using state classification[J].Applied Artificial Intelligence,2008,(07):761-779.
7LIN L,XIE H,ZHANG D. Supervised neural Q-learning based motion control for bionic underwater robots[J].Journal of Bionic Engineering,2010,(Sup):177-184.
8OH C H,NAKASHIMA T,ISHIBUCHI H. Initialization of qvalues by fuzzy rules for accelerating qlearning[A].Anchorage:IEEE,2002.2051-2056.
9WIEWIORA E. Potential based shaping and qvaluc initialization are equivalent[J].Journal of Artificial Intelligence Research,2003,(01):208-208.
10KHATIB O. Real-time obstacle avoidance for manipulators and mobile robots[A].St.Louis:IEEE,1985.500-505.

共引文献115

1徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：10
2金翔,王天霖,于鹏垚,赵勇.基于值迭代网络的路径规划算法[J].华中科技大学学报（自然科学版）,2020,48(2):91-96. 被引量：1
3刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：1
4高双,柳春平,张瞳,陈坤.可行状态包络下欠驱动水面船全时可跟踪轨迹规划方法[J].船舶工程,2022,44(S01):459-466.
5王昆生.金融衍生工具及其监管[J].现代企业导刊,2000(4):48-49.
6余涛,张水平.基于5要素试错更新算法SARSA(λ)的自动发电控制[J].控制理论与应用,2013,30(10):1246-1251. 被引量：2
7张晓文,侯媛彬,王维.移动机器人路径规划的人工免疫势场算法研究[J].自动化仪表,2013,34(12):5-8. 被引量：3
8杨再甫,黄友锐,曲立国,葛平平.TSP的改进蚁群算法求解及其仿真研究[J].合肥工业大学学报（自然科学版）,2014,37(8):928-932. 被引量：9
9王辉,宋昌统.基于自适应状态聚集Q学习的移动机器人动态规划方法[J].计算机测量与控制,2014,22(10):3419-3422. 被引量：3
10郑延斌,李波,安德宇,李娜.基于分层强化学习及人工势场的多Agent路径规划方法[J].计算机应用,2015,35(12):3491-3496. 被引量：14

同被引文献33

1朱旭,朱万红,秦建飞.战斧巡航导弹作战效能及其防护措施研究[J].飞航导弹,2018(3):8-11. 被引量：4
2范世鹏,祁琪,路坤锋,吴广,李伶.基于改进人工势场法的巡航导弹自主避障技术[J].北京理工大学学报,2018,38(8):828-834. 被引量：21
3华冰,刘睿鹏,孙胜刚,吴云华,陈志明.一种基于自适应种群变异鸽群优化的航天器集群轨道规划方法[J].中国科学：技术科学,2020,50(4):453-460. 被引量：3
4高岳林,武少华.基于自适应粒子群算法的机器人路径规划[J].郑州大学学报（工学版）,2020,41(4):46-51. 被引量：14
5李斌,杨豪中,甘旭升,李琦.改进PSO算法融合人工势场法的工业机器人路径规划设计[J].系统科学与数学,2021,41(4):939-952. 被引量：13
6戚远航,侯鹏,金荣森.基于Q学习粒子群算法的海上风电场电气系统拓扑优化[J].电力系统自动化,2021,45(21):66-75. 被引量：12
7酒艳妮,胡大伟.考虑多类型产品新鲜度的生鲜配送路径优化[J].物流科技,2022,45(1):70-75. 被引量：2
8庞风麟,骆敏舟,柳聪,柏永华,徐孝彬.一种基于Voronoi_Obstacle场的移动机器人路径规划算法[J].机械设计与制造工程,2021,50(12):39-43. 被引量：3
9耿建福,宋怡然,王雅琳,刘都群.2021年国外飞航导弹发展综述[J].飞航导弹,2021(12):7-11. 被引量：5
10谢勇宏,孔月萍.基于改进粒子群算法的三维路径规划[J].计算机测量与控制,2022,30(3):179-182. 被引量：17

引证文献2

1李小燕,员立亭.基于SLAM算法的图书馆服务机械人的路径研究[J].自动化与仪器仪表,2023(5):201-206.
2何阳,曲凯,袁璞,侯明豆.基于学习型粒子群算法的巡航导弹路径规划仿真验证[J].现代电子技术,2023,46(23):114-120.

1唐恒亮,唐滋芳,董晨刚,尹棋正,海秋茹.基于启发式强化学习的AGV路径规划[J].北京工业大学学报,2021,47(8):895-903. 被引量：8
2张瑞,周丽,刘震锴.基于MOBDB-RRT^(*)算法的移动机器人路径规划[J].电光与控制,2022,29(7):12-16. 被引量：3
3张志军,董学平,甘敏.基于优化蚁群算法的AGV路径规划研究[J].合肥工业大学学报（自然科学版）,2022,45(7):914-919. 被引量：13
4陈晓宏,储飞黄,方胜良,马昭.基于剖分网格改进A^(*)算法的航迹规划研究[J].电光与控制,2022,29(7):17-21. 被引量：5

现代计算机

2022年第10期

浏览历史

内容加载中请稍等...

基于启发式强化学习的移动机器人路径规划算法研究被引量：2

参考文献5

二级参考文献21

共引文献115

同被引文献33

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于启发式强化学习的移动机器人路径规划算法研究 被引量：2

参考文献5

二级参考文献21

共引文献115

同被引文献33

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于启发式强化学习的移动机器人路径规划算法研究被引量：2