结合神经网络和Q(λ)-learning的路径规划方法被引量：4

Path Planning Method Based on Neural Network and Q(λ)-learning

下载PDF

导出

摘要 Q-learning是一种经典的增强学习算法,简单易用且不需要环境模型;广泛应用于移动机器人路径规划。但在状态空间和动作空间较大时,经典的Q-learning算法存在学习效率低、收敛速度慢,容易陷入局部最优解等问题。通过引入神经网络模型,利用地图信息计算状态势值,从而优化了设计奖励函数。合理奖励函数为Q(λ)-learning算法提供了先验知识,避免训练中的盲目搜索,同时奖励函数激励避免了陷入局部最优解。仿真试验表明,改进的路径规划方法在收敛速度方面有很大的提升,训练得到的路径为全局最优。 Q-learning is a classical reinforcement learning algorithm,which is simple to use and does not need environment model. It is widely used in mobile robot path planning. However,when the state space and action space are large,the classical Q-learning algorithm has the problems of low learning efficiency,slow convergence speed and easy to fall into local optimal solution. By introducing the neural network model and using map information to calculate the state potential value,the design reward function is optimized. Reasonable reward function provides prior knowledge for Q(λ)-learning algorithm,avoiding blind search in training,and reward function incentive avoids falling into local optimal solution. The simulation results show that the improved path planning method improves the convergence speed greatly,and the trained path is globally optimal.

作者王健张平陆赵忠英程晓鹏 WANG Jian;ZHANG Ping-lu;ZHAO Zhong-ying;CHENG Xiao-peng(Special Robot BG,Shenyang SIASUN Robot & Automation Co.,Ltd.,Shenyang 110169,China;Department of Mechanical and Traffic Engineering,Shenyang Institute of Science and Technology,Shenyang 110167,China)

机构地区沈阳新松机器人自动化股份有限公司特种机器人BG 沈阳科技学院机械与交通工程系

出处《自动化与仪表》 2019年第9期1-4,共4页 Automation & Instrumentation

关键词路径规划神经网络强化学习移动机器人奖励函数 path planning neural network reinforcement learning mobile robot reward function

分类号 TP24 [自动化与计算机技术—检测技术与自动化装置] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1成伟明,唐振民,赵春霞,陈得宝.基于神经网络和PSO的机器人路径规划研究[J].系统仿真学报,2008,20(3):608-611. 被引量：10
2乔俊飞,侯占军,阮晓钢.基于神经网络的强化学习在避障中的应用[J].清华大学学报（自然科学版）,2008,48(S2):1747-1750. 被引量：27

二级参考文献14

1樊长虹,陈卫东,席裕庚.动态未知环境下一种Hopfield神经网络路径规划方法[J].控制理论与应用,2004,21(3):345-350. 被引量：16
2陈华华,杜歆,顾伟康.基于神经网络和遗传算法的机器人动态避障路径规划[J].传感技术学报,2004,17(4):551-555. 被引量：23
3陈得宝,赵春霞.WRBF网络的设计及其在混沌时间序列中的应用[J].系统仿真学报,2005,17(3):574-576. 被引量：2
4朱庆保.复杂环境下的机器人路径规划蚂蚁算法[J].自动化学报,2006,32(4):586-593. 被引量：46
5O Khatib. Real-time obstacle avoidance for manipulators and mobile robots [J]. International Journal of Robotics Research (S0278-3649), 1986, 5(1): 90-98.
6Brooks R, Lozano Perez T. A Subdivision Algorithm in Configuration Space for Findpath with Rotation [C].Proceedings of 8th. International Joint Conf on Articial Intelligence (ICAD. USA, IEEE Press, 1983: 799-806.
7Yang S X, Max M. Neural network approaches to dynamic collision-free trajectory generation [J]. IEEE Transaction on Systems, Man, and Cybernetics, Part B (S1083-4419), 2001, 31(3): 302-318.
8Jianping Tu, Yang S X. Genetic algorithm based path planning for a mobile robot [C].IEEE International Conference on Robotics and Automation. 2003, 1: 1221-1226.
9Zavlangas P G, Tzafestas S G. Industrial robot navigation and obstacle avoidance employing fuzzy logic [J]. Journal of Intelligent and Robotic Systems (S0921-0296), 2000, 27(1/2): 85-97.
10Y Sift, R Eberhart. Parameter selection in particle swarm optimization [C].Proceedings of 7th Annual Conference on Evolution Computation. USA, Springer, 1998: 591-601.

共引文献35

1颜云华,徐志成.改进的PSO算法在非线性模型参数辨识中的应用[J].现代电子技术,2009,32(13):204-207. 被引量：1
2耿永刚.一种新型的非线性系统模型参数辨识方法[J].微型机与应用,2010,29(17):74-76. 被引量：4
3赵祚喜,汪宁,张智刚,赵汝祺,俞龙,罗锡文.一种适用于非360°探测机器人的避障导航算法[J].机械工程学报,2010,46(19):44-52. 被引量：9
4阮晓钢,许晓明,李欣源.一种迷宫机器人的人工脑系统[J].控制工程,2010,17(5):686-690. 被引量：3
5刘子文,杨恢先,许翔,欧训勇.新型PSO算法在停车场车位诱导问题中的研究[J].计算机工程与应用,2010,46(30):233-236. 被引量：3
6高扬,孙树栋,赫东峰.基于粒子滤波的一种全局路径规划方法[J].控制理论与应用,2010,27(3):369-372. 被引量：2
7夏琳琳,张健沛,初妍.计算智能在移动机器人路径规划中的应用综述[J].智能系统学报,2011,6(2):160-165. 被引量：7
8段勇,伊婧.基于二型模糊系统的强化学习及其在机器人行为学习中的应用[J].制造业自动化,2011,33(22):20-24.
9陈自立,徐娅萍,顾立彬.基于模糊Q学习算法的AGV路径规划研究[J].制造业自动化,2012,34(11):4-6. 被引量：7
10刘奇,宋凯,张世平,王祁.基于目标向量的非全向测距机器人路径规划[J].电子测量技术,2012,35(5):73-77. 被引量：7

同被引文献40

1乔俊飞,侯占军,阮晓钢.基于神经网络的强化学习在避障中的应用[J].清华大学学报（自然科学版）,2008,48(S2):1747-1750. 被引量：27
2毕盛,朱金辉,闵华清,钟汉如.基于模糊逻辑的机器人路径规划[J].机电产品开发与创新,2006,19(1):21-22. 被引量：7
3姚玮,陈敏,牟善科,高明智,钱照明.基于改进下垂法的微电网逆变器并联控制技术[J].电力系统自动化,2009,33(6):77-80. 被引量：95
4吴守亮.基于Matlab的三维数字地形模拟及空间分析[J].测绘工程,2011,20(3):54-57. 被引量：7
5周贤正,荣飞,吕志鹏,罗安,彭双剑.低压微电网采用坐标旋转的虚拟功率V/f下垂控制策略[J].电力系统自动化,2012,36(2):47-51. 被引量：53
6郜登科,姜建国,张宇华.使用电压-相角下垂控制的微电网控制策略设计[J].电力系统自动化,2012,36(5):29-34. 被引量：65
7宋勇,李贻斌,李彩虹.移动机器人路径规划强化学习的初始化[J].控制理论与应用,2012,29(12):1623-1628. 被引量：27
8杨志淳,刘开培,乐健,万梓琳,王东旭,苏毅.孤岛运行微电网中模糊PID下垂控制器设计[J].电力系统自动化,2013,37(12):19-23. 被引量：29
9刘开俊,高艺,宋福龙.多适应性电网规划风险评估框架设计及应用展望[J].电力建设,2014,35(12):1-5. 被引量：10
10韩丰,高艺,宋福龙,曾沅.电网规划评估方法及实用化技术[J].电力建设,2014,35(12):6-13. 被引量：8

引证文献4

1王健,赵亚川,赵忠英,张平陆.基于Q(λ)-learning的移动机器人路径规划改进探索方法[J].自动化与仪表,2019,34(11):39-41. 被引量：4
2姚建华,胡晟,王冠,沈云,姜林林,冯宇立,龚成亚,张照轩,柳伟.基于强化学习的孤岛微电网多源协调频率控制方法[J].电力建设,2020,41(9):69-75. 被引量：11
3梁洁雅,田卫萍,杨志坚.基于改进蚁群算法的飞机航路规划研究[J].火力与指挥控制,2021,46(3):67-71. 被引量：5
4褚晶,邓旭辉,岳颀.基于Q-learning的搜救机器人自主路径规划[J].南京航空航天大学学报,2024,56(2):364-374.

二级引证文献20

1杜卓颖,李金禧,张祥来,朱琳.基于改进Q学习的“货到人”拣选系统AGV路径规划[J].物流技术,2020,39(12):88-92.
2唐恒亮,唐滋芳,董晨刚,尹棋正,海秋茹.基于启发式强化学习的AGV路径规划[J].北京工业大学学报,2021,47(8):895-903. 被引量：9
3周思达,王文豪,唐嘉宁,潘蓉.融合生物信息素的改进稀疏A^(*)探索航迹规划[J].电光与控制,2021,28(11):26-30. 被引量：2
4董存,陶以彬,张牟发,王士柏,桑丙玉,李志军,张家安.基于虚拟同步发电机的逆变器类电源频率特性及重塑技术[J].电力建设,2022,43(2):109-116. 被引量：12
5杨悦,王丹,胡博,王鹤,罗桓桓.基于改进多智能体Q学习的多源最优联合调频控制策略研究[J].电力系统保护与控制,2022,50(7):135-144. 被引量：11
6邹屹东,钱晶,张文英,梅宏,陈家焕,曾云.基于CPSOGSA算法的风-光-小水电微电网负荷频率最优H_(2)/H_(∞)鲁棒控制[J].电力系统保护与控制,2022,50(11):42-51. 被引量：14
7赵志,段炼,路东林,张杨,邱雪.基于蚁群算法的无人机三维路径规划与冲突解脱[J].航空计算技术,2022,52(4):33-37. 被引量：5
8谢黎龙,李勇汇,肖金星,徐冰雁,叶影,杨军.基于改进虚拟同步机的风储微网综合控制[J].科学技术与工程,2022,22(22):9660-9668. 被引量：1
9于君.群体智能算法在决策控制系统的应用策略研究[J].火力与指挥控制,2022,47(11):1-5. 被引量：1
10史毅,沈奥龙,张正江,胡文,章纯,洪智慧,闫正兵.孤岛微电网中二阶滤波器与PID控制器一体化参数整定方法[J].计算机测量与控制,2023,31(3):180-186. 被引量：1

1李程坤.基于Q_learning方法的信道估计技术的研究[J].科学与信息化,2017,0(27):32-33.
2段建民,陈强龙.利用先验知识的Q-Learning路径规划算法研究[J].电光与控制,2019,26(9):29-33. 被引量：11
3薛裕颖,张祥银,张国梁,贾松敏.基于量子行为烟花算法的移动机器人路径规划及平滑[J].控制理论与应用,2019,36(9):1398-1408. 被引量：12
4吴志福.优化Q_learning算法在强化学习中的应用[J].科技通报,2018,0(2):74-76. 被引量：2
5宋华.历史地图在初中历史教学中的有效应用[J].甘肃教育,2019,0(13):183-183. 被引量：1
6王雪芹.地图教学在初中地理教学中的运用[J].最漫画·学校体音美,2018,0(27):00167-00167.
7刘学芳,曾国辉,黄勃,鲁敦科.基于改进蚁群算法的移动机器人路径规划研究[J].电子科技,2019,32(9):5-9. 被引量：12
8卢海峰,顾春华,罗飞,丁炜超,袁野,任强.强化学习下能耗优化的虚拟机放置策略[J].计算机科学,2019,46(9):291-297. 被引量：5
9阎蕾.初中地理教学中的地图教学分析[J].好家长,2019,0(46):197-197.
10刘洁.一种基于量子风驱动优化算法的移动机器人路径规划[J].机床与液压,2019,47(17):43-50. 被引量：2

自动化与仪表

2019年第9期

浏览历史

内容加载中请稍等...

结合神经网络和Q(λ)-learning的路径规划方法被引量：4

参考文献2

二级参考文献14

共引文献35

同被引文献40

引证文献4

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

结合神经网络和Q(λ)-learning的路径规划方法 被引量：4

参考文献2

二级参考文献14

共引文献35

同被引文献40

引证文献4

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

结合神经网络和Q(λ)-learning的路径规划方法被引量：4