基于阶段Q学习算法的机器人路径规划被引量：3

Robot path planning based on stage Q learning algorithm

下载PDF

导出

摘要针对传统Q学习存在收敛速度慢、学习效率低等问题,提出一种基于阶段Q学习的机器人路径规划算法。首先基于环境规模设置每阶段探索步长,减少搜索重复度;其次设置奖励池和奖励阈值确保每一阶段为最优探索;最后组合阶段最优路径为全局最优路径。通过仿真实验表明,与传统Q学习算法相比,阶段Q学习算法提高了学习效率,提升算法的收敛速度,使得机器人在复杂环境中能够迅速找到无碰撞路径。 Aiming at the problems of slow convergence speed and low learning efficiency in traditional Q learning,a robot path planning algorithm based on stage Q learning was proposed.We set the exploration step size of each stage based on the scale of the environment to reduce the search repetition;and we set the reward pool and reward threshold to ensure that each stage is the optimal exploration;The optimal path of the combined stage is the global optimal path.Simulation experiments show that compared with the traditional Q learning algorithm,the stage Q learning algorithm improves the learning efficiency and the convergence speed of the algorithm,so that the robot can quickly find a collision-free path in a complex environment.

作者杨秀霞高恒杰刘伟张毅 YANG Xiuxia;GAO Hengjie;LIU Wei;ZHANG Yi(Coast Guard College, Naval Aviation University, Yantai 264001, China;School of Combat Service, Naval Aviation University, Yantai 264001, China)

机构地区海军航空大学岸防兵学院海军航空大学战勤学院

出处《兵器装备工程学报》 CSCD 北大核心 2022年第5期197-203,共7页 Journal of Ordnance Equipment Engineering

基金山东省自然科学基金项目(ZR2020MF090)。

关键词强化学习机器人路径规划 Q学习分阶段最优探索 reinforcement learning robot path planning Q learning optimal exploration in stages

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献13

1张艳,张明路,蒋志宏,吕晓玲.动态环境下移动机器人路径规划的研究[J].合肥工业大学学报（自然科学版）,2020,43(10):1297-1306. 被引量：19
2张占义,朱金达.蜂群优化算法的机器人路径规划[J].兵器装备工程学报,2020,41(7):152-157. 被引量：11
3陈飞,王旭烽,刘可平,唐晓峰,刘宁.基于人工势场法的筒弹自动装填路径规划[J].兵器装备工程学报,2020,41(4):26-30. 被引量：4
4王迪,李彩虹,郭娜,刘国名,高腾腾.基于模糊势场法的移动机器人局部路径规划[J].计算机工程与应用,2021,57(6):212-218. 被引量：11
5刘亚秋,赵汉琛,刘勋,徐妍.一种基于改进的快速扩展随机树的工业机器人路径避障规划算法[J].信息与控制,2021,50(2):235-246. 被引量：32
6张伟民,付仕雄.基于改进RRT^(*)算法的移动机器人路径规划[J].华中科技大学学报（自然科学版）,2021,49(1):31-36. 被引量：37
7邓青,薛青,陈琳,陈俊.一种混合路径规划方法在装甲车辆CGF中的应用[J].兵器装备工程学报,2018,39(7):120-122. 被引量：8
8毛嘉琪.改进蚁群算法的机器人路径规划研究[J].计算机应用与软件,2021,38(5):300-306. 被引量：18
9陈岳军,王敬贤.基于多种障碍环境建模的机器人路径规划[J].科技和产业,2021,21(3):135-142. 被引量：1
10徐晓苏,袁杰.基于改进强化学习的移动机器人路径规划方法[J].中国惯性技术学报,2019,27(3):314-320. 被引量：41

二级参考文献105

1曹成才,姚进,王强.基于几何法的移动机器人路径规划[J].计算机应用研究,2005,22(12):82-85. 被引量：2
2朱庆保.动态复杂环境下的机器人路径规划蚂蚁预测算法[J].计算机学报,2005,28(11):1898-1906. 被引量：50
3王肖青,王奇志.传统人工势场的改进[J].计算机技术与发展,2006,16(4):96-98. 被引量：15
4李擎,张伟,尹怡欣,王志良.一种用于最优路径规划的改进遗传算法[J].信息与控制,2006,35(4):444-447. 被引量：18
5黄炳强,曹广益.基于人工势场法的移动机器人路径规划研究[J].计算机工程与应用,2006,42(27):26-28. 被引量：38
6周躜,王腾飞,戴光明.机器人路径规划中的双向Dijkstra二叉树算法[J].计算机工程,2007,33(10):36-37. 被引量：5
7夏桂梅,曾建潮.一种基于轮盘赌选择遗传算法的随机微粒群算法[J].计算机工程与科学,2007,29(6):51-54. 被引量：27
8赫东锋,孙树栋.一种在线自学习的移动机器人模糊导航方法[J].西安工业大学学报,2007,27(4):325-329. 被引量：2
9吕太之,赵春霞.基于改进概率栅格分解的路径规划算法[J].计算机工程,2007,33(21):160-162. 被引量：7
10曲道奎,杜振军,徐殿国,徐方.移动机器人路径规划方法研究[J].机器人,2008,30(2):97-101. 被引量：93

共引文献190

1徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：9
2黄志锋,刘媛华.基于改进狮群算法的城市无人机低空路径规划[J].信息与控制,2023,52(6):747-757. 被引量：1
3刘慧,张世义,段云鹏,贾卫东,沈跃.基于改进双向RRT^(*)的果园机器人运动规划算法[J].农业机械学报,2022,53(11):31-39. 被引量：6
4杨敏豪,张国良,李德胜.基于双向F-RRT^(*)算法的移动机器人路径规划[J].电子测量技术,2023,46(5):91-97.
5智超群,鲁旭涛,张丽娜.水质监测机器人集群编队路径规划策略[J].国外电子测量技术,2022,41(5):15-20. 被引量：4
6王昆生.金融衍生工具及其监管[J].现代企业导刊,2000(4):48-49.
7陆皖麟,雷景森,邵炎.基于改进A~*算法的移动机器人路径规划[J].兵器装备工程学报,2019,40(4):197-201. 被引量：26
8文秘,方强,黄兴龙,张一鸣.基于RGRS的空域划设问题研究[J].兵器装备工程学报,2020,41(3):194-199. 被引量：3
9陈飞,王旭烽,刘可平,唐晓峰,刘宁.基于人工势场法的筒弹自动装填路径规划[J].兵器装备工程学报,2020,41(4):26-30. 被引量：4
10王鹏远.基于可变粒度调度的爬壁机器人路径规划仿真[J].计算机仿真,2020,37(9):291-294. 被引量：1

同被引文献33

1何健,文晓涛,聂文亮,李雷豪,杨吉鑫.利用随机森林算法预测裂缝发育带[J].石油地球物理勘探,2020,55(1):161-166. 被引量：7
2游晓明,刘升,吕金秋.一种动态搜索策略的蚁群算法及其在机器人路径规划中的应用[J].控制与决策,2017,32(3):552-556. 被引量：94
3李根,李航,张帅阳,罗秋慧,杨弘凡.基于蚁群算法的最优路径规划及参数研究[J].中国科技论文,2018,13(16):1909-1914. 被引量：33
4王程博,张新宇,邹志强,王少博.基于Q-Learning的无人驾驶船舶路径规划[J].船海工程,2018,47(5):168-171. 被引量：21
5李峻樊,廖士中.在线核选择的对抗式多臂赌博机模型[J].计算机科学,2019,46(1):57-63. 被引量：2
6许凯波,鲁海燕,黄洋,胡士娟.基于双层蚁群算法和动态环境的机器人路径规划方法[J].电子学报,2019,47(10):2166-2176. 被引量：50
7封佳祥,江坤颐,周彬,袁志豪.多任务约束条件下基于强化学习的水面无人艇路径规划算法[J].舰船科学技术,2019,41(23):140-146. 被引量：5
8胡学敏,成煜,陈国文,张若晗,童秀迟.基于深度时空Q网络的定向导航自动驾驶运动规划[J].计算机应用,2020,40(7):1919-1925. 被引量：3
9毛国君,顾世民.改进的Q-Learning算法及其在路径规划中的应用[J].太原理工大学学报,2021,52(1):91-97. 被引量：16
10徐菱,付文浩,江文辉,李忠涛.基于16方向24邻域改进蚁群算法的移动机器人路径规划[J].控制与决策,2021,36(5):1137-1146. 被引量：42

引证文献3

1刘明,金日初.阶段性规划方法对长江干线航道整治进度的优化[J].中国水运（下半月）,2023(1):66-68.
2崔焘,张昊楠,阮福明,崔世峰,张少鹏.基于强化Q学习的海上地震勘探航线自动规划方法[J].电子技术应用,2023,49(11):105-110.
3寇发荣,何海洋,肖伟,胡凯仑.基于变步长双层蚁群算法的机器人路径规划[J].中国科技论文,2023,18(11):1236-1243.

1范静宇,刘全.基于随机加权三重Q学习的异策略最大熵强化学习算法[J].计算机科学,2022,49(6):335-341. 被引量：2
2温尚国,刘晓毅,唐晋,王进,崔阳,郝子龙.基于动态防御的API安全网关设计[J].保密科学技术,2022(4):36-41.
3吕昊,何益鸣,田浩,王铁强,邱小洪,马瑞.基于物联网的园区综合能源系统快速通信网络建模与仿真[J].中国电力,2022,55(5):166-173. 被引量：10
4肉鸭高床网上饲养技术[J].致富天地,2022(4):70-70.
5李阳.面向社交网络中影响力传播研究进展[J].信息安全研究,2022,8(6):622-627. 被引量：1
6王晓燕,牛晶,刘挺.基于改进烟花算法的室内服务机器人路径规划[J].现代电子技术,2022,45(12):182-186. 被引量：3
7党佳俊,张宏烈,慕钢,李诚,张晓琳.面向学生成绩预测的组合优化算法[J].高师理科学刊,2022,42(5):40-46.
8刘景森,袁蒙蒙,李煜.基于改进的樽海鞘群算法求解机器人路径规划问题[J].计算机研究与发展,2022,59(6):1297-1314. 被引量：3
9杨智华,崔国民,徐玥,肖媛.进化概率差异化策略优化有分流换热网络[J].热能动力工程,2022,37(4):1-8.
10石建平,刘国平,李培生,陈冬云,刘鹏.双策略协同进化果蝇优化算法及其应用[J].计算机集成制造系统,2022,28(5):1482-1495. 被引量：9

兵器装备工程学报

2022年第5期

浏览历史

内容加载中请稍等...

基于阶段Q学习算法的机器人路径规划被引量：3

参考文献13

二级参考文献105

共引文献190

同被引文献33

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于阶段Q学习算法的机器人路径规划 被引量：3

参考文献13

二级参考文献105

共引文献190

同被引文献33

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于阶段Q学习算法的机器人路径规划被引量：3