基于改进PPO算法的机器人局部路径规划被引量：6

Local Path Planning of Robot Based on Improved PPO Algorithm

下载PDF

导出

摘要利用强化学习训练机器人局部路径规划模型存在算法收敛速度慢、易陷入死锁区域导致目标不可达等问题。对传统近端策略优化(PPO)算法进行改进,引入长短期记忆(LSTM)神经网络并设计虚拟目标点法,提出LSTM-PPO算法。将PPO神经网络结构中的全连接层替换为LSTM记忆单元,控制样本信息的记忆和遗忘程度,优先学习奖励值高的样本,从而更快地累积奖励优化模型。在此基础上,加入虚拟目标点,通过雷达传感器收集的环境信息判断机器人陷入死锁区域时弃用目标点给予机器人的引导,使机器人走出陷阱区域并趋向目标点,减少在死锁区域不必要的训练。分别在特殊障碍物场景和混合障碍物场景中对LSTM-PPO算法进行仿真验证,结果表明,与传统PPO算法和改进算法SDAS-PPO相比,该算法在两种场景训练中均能最快到达奖励峰值,可加快模型收敛速度,减少冗余路段,优化路径平滑度并缩短路径长度。 The traditional reinforcement learning algorithm has the problem of slow convergence and fails to reach the target owing to the possibility of falling into the deadlock area.Thus,based on the Proximal Policy Optimization(PPO)algorithm combined with a Long Short-Term Memory(LSTM)neural network and designed virtual target point method,this study introduces a LSTM-PPO algorithm.In this algorithm,the fully connected layer in the PPO neural network structure is replaced with an LSTM memory unit to control the memory and forgetting degree of sample information.The algorithm gives priority to learning samples with high rewards and accumulates the reward optimization model faster.A virtual target point is added and the robot’s guidance from the goal point is deprecated when the robot falls into the deadlock area judged by the environmental information collected by the radar sensors.This guides the robot to get out of a trapped area,approach a target point,and reduce unnecessary training in deadlock areas.Finally,the LSTM-PPO algorithm is simulated and verified in discrete obstacle and special obstacle scenes,and it is compared with traditional PPO and SDAS-PPO algorithms in the average reward and path length.The verification results show that the designed LSTM-PPO algorithm can reach the reward peak faster in various scenarios of training,enable faster convergence,reduce redundant road sections,improve path smoothness,and shorten path length.

作者刘国名李彩虹李永迪张国胜张耀玉高腾腾 LIU Guoming;LI Caihong;LI Yongdi;ZHANG Guosheng;ZHANG Yaoyu;GAO Tengteng(School of Computer Science and Technology,Shandong University of Technology,Zibo 255000,Shandong,China)

机构地区山东理工大学计算机科学与技术学院

出处《计算机工程》 CAS CSCD 北大核心 2023年第2期119-126,135,共9页 Computer Engineering

基金国家自然科学基金面上项目(61473179,61973184)。

关键词机器人局部路径规划长短期记忆神经网络近端策略优化算法虚拟目标点 robot local path planning Long Short-Term Memory(LSTM)neural network Proximal Policy Optimization(PPO)algorithm virtual target point

分类号 TP273 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献10

1于振中,李强,樊启高.智能仿生算法在移动机器人路径规划优化中的应用综述[J].计算机应用研究,2019,36(11):3210-3219. 被引量：47
2杨惟轶,白辰甲,蔡超,赵英男,刘鹏.深度强化学习中稀疏奖励问题研究综述[J].计算机科学,2020,47(3):182-191. 被引量：38
3高艺,马国庆,于正林,曹国华.一种六自由度工业机器人运动学分析及三维可视化仿真[J].中国机械工程,2016,27(13):1726-1731. 被引量：26
4王牛,李祖枢,李永龙,潘娅.带驱动直流电机两轮机器人运动系统仿真[J].系统仿真学报,2008,20(17):4633-4638. 被引量：7
5申怡,刘全.基于自指导动作选择的近端策略优化算法[J].计算机科学,2021,48(12):297-303. 被引量：7
6刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406-1438. 被引量：131
7刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：473
8刘智斌,曾晓勤,刘惠义,储荣.基于BP神经网络的双层启发式强化学习方法[J].计算机研究与发展,2015,52(3):579-587. 被引量：38
9宋晓琳,周南,黄正瑜,曹昊天.改进RRT在汽车避障局部路径规划中的应用[J].湖南大学学报（自然科学版）,2017,44(4):30-37. 被引量：61
10潘昕,吴旭升,侯新国,冯源.基于遗传蚂蚁混合算法的AUV全局路径规划[J].华中科技大学学报（自然科学版）,2017,45(5):45-49. 被引量：37

二级参考文献89

1李瑞峰,马国庆.基于Matlab仿人机器人双臂运动特性分析[J].华中科技大学学报（自然科学版）,2013,41(S1):343-347. 被引量：28
2胡小兵,黄席樾.基于蚁群算法的三维空间机器人路径规划[J].重庆大学学报（自然科学版）,2004,27(8):132-135. 被引量：22
3王晓宇,赵杰,蔡鹤皋.Dynamic and control system analysis of two-wheeled robot for welding application[J].China Welding,2004,13(2):147-150. 被引量：1
4熊志辉,李思昆,陈吉华.遗传算法与蚂蚁算法动态融合的软硬件划分[J].软件学报,2005,16(4):503-512. 被引量：87
5曹艳,王典洪.足球机器人定点行走模型的研究[J].武汉理工大学学报（交通科学与工程版）,2005,29(4):595-598. 被引量：3
6魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
7许松清,吴海彬,杨兴裕.两轮驱动移动机器人的运动学研究[J].电子机械工程,2005,21(6):31-34. 被引量：19
8曹洋,方帅,徐心和.加速度约束条件下的非完整移动机器人运动控制[J].控制与决策,2006,21(2):193-196. 被引量：11
9史明霞,陶林波,沈建京.自适应遗传算法的改进与应用[J].微计算机应用,2006,27(4):405-408. 被引量：18
10高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38

共引文献800

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：45
3张强,刘晓宇,张南庆,何鸣.基于改进人工势场算法的AUV路径规划[J].中国航海,2021,44(2):134-141. 被引量：6
4韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
5朱新乐.基于BP神经网络的绿色供应链优化研究[J].运输经理世界,2023(11):156-158.
6李卫硕,孙剑,陈伟.基于BP神经网络机器人实时避障算法[J].仪器仪表学报,2019,40(11):204-211. 被引量：38
7张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376.
8李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
9王星烨.矿用卡车无人驾驶系统路径规划方案研究[J].工矿自动化,2023,49(S01):99-102. 被引量：1
10周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：7

同被引文献62

1王学宁,贺汉根,徐昕.求解部分可观测马氏决策过程的强化学习算法[J].控制与决策,2004,19(11):1263-1266. 被引量：5
2车玲玲,王志良.ZMP理论在双足步行机器人步态控制中的应用[J].电子器件,2007,30(4):1462-1464. 被引量：6
3田辉,范绍帅,吕昕晨,赵鹏涛,贺硕.面向5G需求的移动边缘计算[J].北京邮电大学学报,2017,40(2):1-10. 被引量：84
4CHEN Yimin,LU Rongron,ZOU Yibo,ZHANG Yanhui.Branch-Activated Multi-Domain Convolutional Neural Network for Visual Tracking[J].Journal of Shanghai Jiaotong university(Science),2018,23(3):360-367. 被引量：2
5张翔,吴华,陈游,宋海方,周一鹏.基于POMDP的主动雷达制导弹干扰措施优化方法[J].空军工程大学学报（自然科学版）,2018,19(5):90-96. 被引量：2
6谢人超,廉晓飞,贾庆民,黄韬,刘韵洁.移动边缘计算卸载技术综述[J].通信学报,2018,39(11):138-155. 被引量：124
7吕华章,陈丹,范斌,王友祥,乌云霄.边缘计算标准化进展与案例分析[J].计算机研究与发展,2018,55(3):487-511. 被引量：88
8葛畅,白光伟,沈航,宋来将.基于边缘计算的视频监控框架[J].计算机工程与设计,2019,40(1):32-39. 被引量：22
9郭剑岚,陈俞强.基于Stackelberg博弈的车载云计算任务卸载优化[J].计算机应用研究,2019,36(12):3752-3755. 被引量：4
10吴迪.边缘计算赋能智慧城市:机遇与挑战[J].学术前沿,2020(9):18-25. 被引量：10

引证文献6

1何牧,孙越,庞琦方.基于边缘计算的智能视频分析算法研究[J].电力大数据,2023,26(4):65-73.
2倪建云,李浩,谷海青,杜合磊,吴杰,薛晨阳.基于改进VSRB-RRT算法的机器人路径规划仿真实验[J].实验技术与管理,2023,40(9):172-178. 被引量：1
3吕相霖,臧兆祥,李思博,王俊英.基于注意力的循环PPO算法及其应用[J].计算机技术与发展,2024,34(1):136-142.
4杜海军,余粟.基于时空图注意力网络的服务机器人动态避障[J].计算机工程,2024,50(2):105-112.
5吕相霖,臧兆祥,李思博,邹耀斌.基于内在好奇心与自模仿学习的探索算法[J].现代电子技术,2024,47(16):137-144.
6王建森.基于ZMP的人形双足机器人步态规划研究与实践[J].南方农机,2024,55(21):39-41.

二级引证文献1

1施成龙,行鸿彦,王水璋,娄华生.融合三步平滑与改进RRT算法的无人机路径规划[J].电子测量技术,2023,46(23):43-49. 被引量：1

1杨金铎,王林波,曾惜,王冕,周慧.自动化机器人轨迹跟踪与路径规划技术研究[J].自动化仪表,2022,43(7):40-45. 被引量：8
2朱永平.把字句的形式标识与教学策略[J].国际汉语教学研究,2022(4):38-48.
3申怡,刘全.基于自指导动作选择的近端策略优化算法[J].计算机科学,2021,48(12):297-303. 被引量：7
4程小芸,吕昕,孟婕,张帆.不同麻醉方法在支气管镜检查中的麻醉效果及对顺行性遗忘的影响[J].中国内镜杂志,2022,28(10):1-10. 被引量：3
5李胜琴,孙鑫.基于改进人工势场法前车切入场景下的主动避撞路径规划[J].江苏大学学报（自然科学版）,2023,44(1):7-13.
6钟明媚,陈洁,张会珍,丁震.静注咪达唑仑、芬太尼后接受纤维支气管镜检查的患者镇静效果和不良反应观察[J].山东医药,2022,62(33):54-57. 被引量：5
7陈劲宇,王坤,王硕,樊世杰,麻琦昌,李冬梅,王红波.DWA算法和VO混合路径规划算法对比研究[J].吉林大学学报（信息科学版）,2022,40(6):1067-1075. 被引量：3
8Jun Yang,Melissa A.VanAlstine,James G.Phillips,Mark P.Wentland,Lindsay B.Hough.Cytochrome P450 2C24: expression, tissue distribution, high-throughput assay, and pharmacological inhibition[J].Acta Pharmaceutica Sinica B,2012,2(2):137-145.

计算机工程

2023年第2期

浏览历史

内容加载中请稍等...

基于改进PPO算法的机器人局部路径规划被引量：6

参考文献10

二级参考文献89

共引文献800

同被引文献62

引证文献6

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于改进PPO算法的机器人局部路径规划 被引量：6

参考文献10

二级参考文献89

共引文献800

同被引文献62

引证文献6

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于改进PPO算法的机器人局部路径规划被引量：6