基于Safe-PPO算法的安全优先路径规划方法

Safety priority path planning method based on Safe-PPO algorithm

下载PDF

导出

摘要现有的路径规划算法对路径规划过程中的路径安全性问题考虑较少,并且传统的近端策略优化(PPO)算法存在一定的方差适应性问题。为解决这些问题,提出一种融合进化策略思想和安全奖励函数的安全近端策略优化(Safe-PPO)算法,所提算法以安全优先进行路径规划。采用协方差自适应调整的进化策略(CMA-ES)的思想对PPO算法进行改进,并引入危险系数与动作因子来评估路径的安全性。使用二维栅格地图进行仿真实验,采用传统的PPO算法和Safe-PPO算法进行对比;采用六足机器人在搭建的场景中进行实物实验。仿真实验结果表明:所提算法在安全优先导向的路径规划方面具有合理性与可行性:在训练时Safe-PPO算法相比传统的PPO算法收敛速度提升了18%,获得的奖励提升了5.3%;在测试时采用融合危险系数与动作因子的方案能使机器人学会选择更加安全的道路而非直观上最快速的道路。实物实验结果表明:机器人可以在现实环境中选择更加安全的路径到达目标点。 The existing path planning algorithms seldom consider the problem of security,and the traditional proximal policy optimization(PPO)algorithm has a variance adaptability problem.To solve these problems,the Safe-PPO algorithm combining evolutionary strategy and safety reward function was proposed.The algorithm is safety-oriented for path planning.CMA-ES was used to improve the PPO algorithm.The hazard coefficient and movement coefficient were introduced to evaluate the safety of the path.Used a grid map for simulation experiments,and compared the traditional PPO algorithm with the Safe-PPO algorithm;The hexapod robot was used to carry out the physical experiment in the constructed scene.The simulation results show that the Safe-PPO algorithm is reasonable and feasible in safety-oriented path planning.When compared to the conventional PPO algorithm,the Safe-PPO algorithm increased the rate of convergence during training by 18%and the incentive received by 5.3%.Using the algorithm that combined the Hazard coefficient and movement coefficient during testing enabled the robot to learn to choose the safer path rather than the fastest one.The outcomes of the physical testing demonstrated that the robot could select a more secure route to the objective in the created setting.

作者别桐朱晓庆付煜李晓理阮晓钢王全民 BIE Tong;ZHU Xiaoqing;FU Yu;LI Xiaoli;RUAN Xiaogang;WANG Quanmin(School of Artificial Intelligence and Automation,Faulty of Information Technology,Beijing University of Technology,Beijing 100124,China;Beijing Key Laboratory of Computational Intelligence and Intelligent System,Beijing University of Technology,Beijing 100124,China;School of Computer Science,Faulty of Information Technology,Beijing University of Technology,Beijing 100124,China)

机构地区北京工业大学信息学部人工智能与自动化学院北京工业大学计算智能与智能系统北京市重点实验室北京工业大学信息学部计算机学院

出处《北京航空航天大学学报》 EI CAS CSCD 北大核心 2023年第8期2108-2118,共11页 Journal of Beijing University of Aeronautics and Astronautics

基金国家自然科学基金(61773027,62103009) 北京市自然科学基金(4202005)。

关键词机器人导航路径规划深度强化学习近端策略优化安全路径选择 robot navigation path planning deep reinforcement learning proximal policy optimization safe path selection

分类号 TP242.6 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献3

1魏彤,龙琛.基于改进遗传算法的移动机器人路径规划[J].北京航空航天大学学报,2020,46(4):703-711. 被引量：87
2董豪,杨静,李少波,王军,段仲静.基于深度强化学习的机器人运动控制研究进展[J].控制与决策,2022,37(2):278-292. 被引量：31
3多南讯,吕强,林辉灿,卫恒.迈进高维连续空间:深度强化学习在机器人领域中的应用[J].机器人,2019,41(2):276-288. 被引量：22

二级参考文献13

1钱善华,葛世荣,王永胜,王勇,柳昌庆.救灾机器人的研究现状与煤矿救灾的应用[J].机器人,2006,28(3):350-354. 被引量：103
2王景存,张晓彤,陈彬,陈和平.一种基于Dijkstra算法的启发式最优路径搜索算法[J].北京科技大学学报,2007,29(3):346-350. 被引量：27
3陈宗海,杨志华,王海波,盛捷.从知识的表达和运用综述强化学习研究[J].控制与决策,2008,23(9):961-968. 被引量：14
4王珂,卜祥津,李瑞峰,赵立军.景深约束下的深度强化学习机器人路径规划[J].华中科技大学学报（自然科学版）,2018,46(12):77-82. 被引量：18
5辛煜,梁华为,杜明博,梅涛,王智灵,江如海.一种可搜索无限个邻域的改进A*算法[J].机器人,2014,36(5):627-633. 被引量：93
6周慧子,胡学敏,陈龙,田梅,熊豆.面向自动驾驶的动态路径规划避障算法[J].计算机应用,2017,37(3):883-888. 被引量：31
7温暖,刘正华,祝令谱,孙扬.深度强化学习在变体飞行器自主外形优化中的应用[J].宇航学报,2017,38(11):1153-1159. 被引量：17
8刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：431
9多南讯,吕强,林辉灿,卫恒.迈进高维连续空间:深度强化学习在机器人领域中的应用[J].机器人,2019,41(2):276-288. 被引量：22
10Ao Xi,Thushal Wijekoon Mudiyanselage,Dacheng Tao,Chao Chen.Balance Control of a Biped Robot on a Rotating Platform Based on Efficient Reinforcement Learning[J].IEEE/CAA Journal of Automatica Sinica,2019,6(4):938-951. 被引量：7

共引文献137

1刘峰波,党飞飞,杨满囤,马平,赵俊达.井下防淤积清仓机器人行走机构纠偏控制研究[J].煤炭工程,2022,54(S01):195-199.
2朱明哲,孙丙宇.基于遗传算法的工厂仓储系统多AGV调度策略研究[J].电子技术（上海）,2021(1):33-37. 被引量：2
3王怀江,刘晓平,王刚,韩松.基于改进遗传算法的移动机械臂拣选路径优化[J].北京邮电大学学报,2020(5):34-40. 被引量：18
4崔俊文,刘自红,石磊,刘福强,乐玉.基于分层学习的四足机器人运动自适应控制模型[J].计算机测量与控制,2020,28(1):105-110. 被引量：4
5宋欣屿,王英勋,蔡志浩,赵江,陈小龙,宋栋梁.基于深度强化学习的无人机着陆轨迹跟踪控制[J].航空科学技术,2020,31(1):68-75. 被引量：8
6张栩源,李军.自动驾驶汽车路径规划技术[J].汽车工程师,2020(5):35-39. 被引量：3
7王振庭,陈永府,刘田.智能仓储中的多机器人调度方法[J].计算机与现代化,2020,0(7):65-70. 被引量：9
8贺笑,李俊,侯言旭.基于深度Q网络的机器人抓取系统[J].工业控制计算机,2020,33(7):28-29.
9孙睿彤.基于移动机器人的路径规划[J].电子制作,2020,28(17):98-100. 被引量：1
10甄岩,袁健全,池庆玺,郝明瑞.深度强化学习方法在飞行器控制中的应用研究[J].战术导弹技术,2020(4):112-118. 被引量：3

1郑航思,林肖含.情境创设在高中英语阅读教学中的有效应用[J].高考,2022(27):123-126.
2冯建玲.在“发展型学习任务群”中“寻踪觅迹”学说明[J].师道（教研）,2023(6):96-97.
3王天恩.ChatGPT的人机软融合效应[J].武汉科技大学学报（社会科学版）,2023,25(3):273-280. 被引量：2
4李宗善,陈颖,董彦君,焦磊,李兆林,王聪,高光耀,石丽娜,张淑娟,白应飞.黄土高原多年生草本根部导水策略空间异质性特征[J].生态学报,2023,43(15):6443-6453.
5丁时照.媒体融合进化论[J].青年记者,2023(11):70-73.
6倪佳华,项基,赵波.基于空间域dP/dV计算的光伏控制方法[J].浙江大学学报（工学版）,2023,57(7):1450-1459.
7魏兴,李晓萍,杨彩霞,李以通.“双碳”背景下既有公共建筑综合性能提升改造地域维度路线设计[J].四川建筑科学研究,2023,49(4):79-87.
8景若琪.中共二大《关于少年运动问题的决议案》探析[J].党史博采（下）,2023(3):33-37.
9陈忻熠,孙雅芃.基于Multisim和LabVIEW的虚拟实验平台设计与实现[J].信息技术,2023,47(7):50-55. 被引量：3

北京航空航天大学学报

2023年第8期

浏览历史

内容加载中请稍等...

基于Safe-PPO算法的安全优先路径规划方法

参考文献3

二级参考文献13

共引文献137

相关作者

相关机构

相关主题

浏览历史