基于多步信息辅助的Q-learning路径规划算法被引量：1

Multi-step Information Aided Q-learning Path Planning Algorithm

下载PDF

导出

摘要为提升静态环境下移动机器人路径规划能力,解决传统Q-learning算法在路径规划中收敛速度慢的问题,提出一种基于多步信息辅助机制的Q-learning改进算法。利用ε-greedy策略中贪婪动作的多步信息与历史最优路径长度更新资格迹,使有效的资格迹在算法迭代中持续发挥作用,用保存的多步信息解决可能落入的循环陷阱;使用局部多花朵的花授粉算法初始化Q值表,提升机器人前期搜索效率;基于机器人不同探索阶段的目的,结合迭代路径长度的标准差与机器人成功到达目标点的次数设计动作选择策略,以增强算法对环境信息探索与利用的平衡能力。实验结果表明:该算法具有较快的收敛速度,验证了算法的可行性与有效性。 To improve the path planning capability of mobile robots in a static environment and solve the problem of slow convergence of the traditional Q-learning algorithm in path planning,this paper proposes a multi-step information-aided Q-learning improvement algorithm.Using the multi-step information of greedy action inε-greedy strategy and length of the historical optimal path to update the eligibility traces,which makes the effective eligibility traces work continuously in the iteration of the algorithm and solves the loop traps that may fall into with the preserved multi-step information;using the local multiflower pollination algorithm to initialize the Q-value table to improve the robot's pre-search efficiency;based on the purpose of different exploration stages of the robot,the action selection strategy is designed by combining the standard deviation of the iterative path length with the number of times the robot successfully reaches the target point to enhance the algorithm's ability to balance the exploration and exploitation of environmental information.The experimental results prove that the algorithm proposed in this paper has a fast convergence speed,which verifies the feasibility and effectiveness of the algorithm.

作者王越龙王松艳晁涛 Wang Yuelong;Wang Songyan;Chao Tao(Control and Simulation Center,Harbin Institute of Technology,Harbin 150001,China)

机构地区哈尔滨工业大学控制与仿真中心

出处《系统仿真学报》 CAS CSCD 北大核心 2024年第9期2137-2148,共12页 Journal of System Simulation

基金国家自然科学基金(62273119)。

关键词路径规划 Q-LEARNING 收敛速度动作选择策略栅格地图 path planning Q-learning convergence speed action selection strategy grid map

分类号 TP391.9 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1林韩熙,向丹,欧阳剑,兰晓东.移动机器人路径规划算法的研究综述[J].计算机工程与应用,2021,57(18):38-48. 被引量：106
2余涛,胡细兵,刘靖.基于多步回溯Q(λ)学习算法的多目标最优潮流计算[J].华南理工大学学报（自然科学版）,2010,38(10):139-145. 被引量：7
3李涛,赵宏生.基于进化蚁群算法的移动机器人路径优化[J].控制与决策,2023,38(3):612-620. 被引量：20
4陈圣磊,吴慧中,肖亮,朱耀琴.基于Metropolis准则的多步Q学习算法与性能仿真[J].系统仿真学报,2007,19(6):1284-1287. 被引量：7
5傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014,37(3):677-686. 被引量：26
6余涛,王宇名,甄卫国,叶文加,刘前进.基于多步回溯Q学习的自动发电控制指令动态优化分配算法[J].控制理论与应用,2011,28(1):58-64. 被引量：14
7闫丰亭,贾金原.DP-Q(λ):大规模Web3D场景中Multi-agent实时路径规划算法[J].系统仿真学报,2019,31(1):16-26. 被引量：4
8付虹,王国志,柯坚,邓斌,吴文海.基于启发式Q(λ)学习的铁路绝缘子定位研究[J].铁道标准设计,2018,62(4):151-155. 被引量：1
9唐恒亮,唐滋芳,董晨刚,尹棋正,海秋茹.基于启发式强化学习的AGV路径规划[J].北京工业大学学报,2021,47(8):895-903. 被引量：10
10田晓航,霍鑫,周典乐,赵辉.基于蚁群信息素辅助的Q学习路径规划算法[J].控制与决策,2023,38(12):3345-3353. 被引量：6

二级参考文献89

1乔俊飞,侯占军,阮晓钢.基于神经网络的强化学习在避障中的应用[J].清华大学学报（自然科学版）,2008,48(S2):1747-1750. 被引量：27
2唐跃中,张王俊,张健,陈明.基于CPS的AGC控制策略研究[J].电网技术,2004,28(21):75-79. 被引量：61
3魏英姿 ,赵明扬 .强化学习算法中启发式回报函数的设计及其收敛性分析[J].计算机科学,2005,32(3):190-193. 被引量：13
4任传祥,张海,范跃祖.混合遗传-模拟退火算法在公交智能调度中的应用[J].系统仿真学报,2005,17(9):2075-2077. 被引量：31
5高宗和,滕贤亮,张小白.互联电网CPS标准下的自动发电控制策略[J].电力系统自动化,2005,29(19):40-44. 被引量：74
6窦全胜,周春光,徐中宇,潘冠宇.动态优化环境下的群核进化粒子群优化方法[J].计算机研究与发展,2006,43(1):89-95. 被引量：20
7蒋金山,何春雄,潘少华.最优化计算方法[M].广州:华南理工大学出版社,2007.
8JALEELI N,VANSLYCK L S.NERC's new control performance standards[J].IEEE Transactions on Power Systems,1999,14(3):1091-1099.
9JING PENG,WILLIAMS R J.Incremental multi-step Q-learning[J].Machine Leaning,1996,22(1):283-290.
10WATKINS J C H,DAYANPETER.Q-learning[J].Machine Leaning,1992,8(3):279-292.

共引文献248

1徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：11
2席磊,余璐,张弦,胡伟.基于深度强化学习的泛在电力物联网综合能源系统的自动发电控制[J].中国科学：技术科学,2020,50(2):221-234. 被引量：19
3赵倩楠,黄宜庆.融合A^(*)蚁群和动态窗口法的机器人路径规划[J].电子测量与仪器学报,2023,37(2):28-38. 被引量：17
4李芳娣,邓晓燕,吴伟铭,周依静,陈芯婷.移动机器人复杂角点定位和停车策略研究与实现[J].电子测量技术,2023,46(22):26-31.
5邓修朋,崔建明,李敏,张小军,宋戈.深度强化学习在机器人路径规划中的应用[J].电子测量技术,2023,46(6):1-8. 被引量：9
6张沙清,陈新度,陈庆新,陈新.基于MPICH2和并行Q学习的模具制造项目群随机调度[J].计算机应用研究,2010,27(9):3242-3246.
7杨健,王永华,蔡庆玲,詹宜巨,万频.EHiQ:一种基于增强型HiQ的RFID读写器MAC协议[J].计算机科学,2011,38(7):85-87. 被引量：3
8邓佳佳,黄元生.基于改进粒子群算法的供电网络优化管理研究[J].生产力研究,2012(3):203-204.
9王昆生.金融衍生工具及其监管[J].现代企业导刊,2000(4):48-49.
10郝钏钏,方舟,李平.采用经验复用的高效强化学习控制方法[J].华南理工大学学报（自然科学版）,2012,40(6):70-75. 被引量：1

同被引文献11

1付泽民,吴力杰,乔涛涛,石博文,余奇.基于改进人工势场法的搬运机器人避障算法研究[J].机床与液压,2021,49(5):25-29. 被引量：26
2王猛,邢关生.基于改进蚁群算法的机器人路径规划[J].电子测量技术,2020,43(24):52-56. 被引量：16
3解迎刚,兰江雨.协作机器人及其运动规划方法研究综述[J].计算机工程与应用,2021,57(13):18-33. 被引量：19
4张琪,田甜,栾天宇,张顗,张可欣.基于改进入工势场算法的无入船路径规划[J].舰船科学技术,2022,44(9):63-68. 被引量：6
5孙淑光,孙涛.基于融合A^(*)算法的无人机路径规划研究[J].电子测量技术,2022,45(9):82-91. 被引量：19
6谷万,徐振,郭帅.基于A*和改进动态窗口法的建筑移动机器人路径规划[J].工业控制计算机,2022,35(8):87-90. 被引量：6
7海振洋,王健,牟思凯,杜若飞,费明哲,李晶玮.无人驾驶路径规划算法综述[J].农业装备与车辆工程,2022,60(11):142-146. 被引量：5
8徐劲力,许建宁,黄丰云,李征瑞.基于改进人工势场法的移动机器人路径规划[J].计算机应用与软件,2023,40(7):289-293. 被引量：6
9王志伟,邹艳丽,刘唐慧美,侯凤萍,余自淳.基于改进Q-learning算法和DWA的路径规划[J].传感器与微系统,2023,42(9):148-152. 被引量：3
10杨教,陆安江,彭熙舜,刘红涛,龙纪安,黄骞瑶.基于改进粒子群算法的三维路径规划研究[J].电子测量技术,2023,46(12):92-97. 被引量：5

引证文献1

1张雨晴,高金凤,苏雯,潘海鹏.融合人工势场的Q_learning算法移动机器人路径规划[J].机床与液压,2024,52(23):45-50.

1喻寒兵,邓磊.主观经济稀缺感和金额大小对个体风险偏好的影响[J].长沙民政职业技术学院学报,2024,31(2):73-77.
2石文康,徐勋倩,康峰沂,顾钰雯,GANHOUEGNON Eric Patrick.基于DDQN强化学习的沥青路面养护决策[J].粉煤灰综合利用,2024,38(4):147-153.
3周胜强.改革“烂尾”现象的常见表现、深层成因及补救对策[J].领导科学,2023(4):140-144. 被引量：2
4李丹丹,朱石磊,李仲康,介百坤,王宏.基于改进变色龙群算法的移动机器人路径规划[J].现代制造工程,2024(9):40-45.
5姜沛轩,李锋,汤宝平,汪永超.变分资格迹元强化循环网络用于空间滚动轴承剩余寿命预测[J].计算机集成制造系统,2024,30(6):2159-2171. 被引量：1
6朱亚楠.马尔科夫跳变线性系统二次最优控制的资格迹方法[J].理论数学,2024,14(5):629-643.
7张宇璇,张楠.基于改进灰狼算法的物流机器人运动路径规划方法[J].计算机测量与控制,2024,32(9):276-282. 被引量：1
8汤亚玲,刘恩赐,张学锋,胡伟鹏.基于改进的A^(*)算法的移动机器人路径规划[J].安徽大学学报（自然科学版）,2024,48(5):18-25. 被引量：1
9赵锴,沙杰,丛尤嘉.基于Q‒learning的变电站无线传感器网络路由算法[J].太赫兹科学与电子信息学报,2024,22(9):952-958.
10刘建娟,李海博,刘忠璞,姬淼鑫,许强伟.基于六向搜索A^(*)算法的移动机器人路径规划[J].组合机床与自动化加工技术,2024(9):6-10.

系统仿真学报

2024年第9期

浏览历史

内容加载中请稍等...

基于多步信息辅助的Q-learning路径规划算法被引量：1

参考文献12

二级参考文献89

共引文献248

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多步信息辅助的Q-learning路径规划算法 被引量：1

参考文献12

二级参考文献89

共引文献248

同被引文献11

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多步信息辅助的Q-learning路径规划算法被引量：1