基于逆向强化学习的无人机路径规划被引量：2

UAV Path Planning Based on Reverse Reinforcement Learning

下载PDF

导出

摘要为了解决深度确定性策略梯度(DDPG)算法在规划无人机(UAV)安全避障路径时收敛速度慢、奖励函数设置困难等问题,基于逆向强化学习提出了一种融合专家演示轨迹的UAV路径规划算法。首先,基于模拟器软件采集专家操纵UAV避障的演示轨迹数据集;其次,采用混合采样机制,在自探索数据中融合高质量专家演示轨迹数据更新网络参数,以降低算法探索成本;最后,根据最大熵逆向强化学习算法求解专家经验中隐含的最优奖励函数,解决了复杂任务中奖励函数设置困难的问题。对比实验结果表明,改进后的算法能有效提升算法训练效率且避障性能更优。 In the planning of UAV safe collision avoidance path,Deep Deterministic Policy Gradient(DDPG)algorithm suffers from slow convergence rate and reward function setting difficulties.To solve the problems based on reverse reinforcement learning,a UAV path planning algorithm that integrates expert demonstration trajectories is proposed.Firstly based on the simulator software the demostration trajectory dataset of the expert manipulating the UAV to avoid obstacles is collected.Secondly the hybrid sampling mechanism is used to update the network parameters by integrating high-quality expert demonstration trajectory data in the self-exploration data to reduce the cost of algorithm exploration.Finally according to the maximum entropy reverse reinforcement learning algorithm the optimal reward function implied in the experience of experts is calculated which solves the problem that the reward function is difficult to design in complex tasks.Comparative experimental results show that the improved algorithm can effectively improve the efficiency of algorithm training and the obstacle avoidance performance is better.

作者杨秀霞王晨蕾张毅于浩姜子劼 YANG Xiuxia;WANG Chenlei;ZHANG Yi;YU Hao;JIANG Zijie(Naval Aviation University Yantai,264000,China)

机构地区海军航空大学

出处《电光与控制》 CSCD 北大核心 2023年第8期1-7,共7页 Electronics Optics & Control

基金山东省自然科学基金(ZR2020MF090)。

关键词无人机路径规划逆向强化学习深度确定性策略梯度 UAV path planning reverse reinforcement learning DDPG

分类号 TP273 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献2

1时浩,田聪玲,任意,贾芳.基于稀疏A^(*)算法的微小型固定翼无人机航迹规划[J].兵工自动化,2021,40(3):14-18. 被引量：5
2张思思,李凤鸣,杨旭亭,李贻斌,宋锐.基于接触状态感知发育的机器人柔性装配方法[J].控制与决策,2021,36(4):876-884. 被引量：7

二级参考文献11

1谢茂强,黄亚楼,殷爱茹,江皞,李栋.基于距离尺度学习的新类识别方法[J].模式识别与人工智能,2009,22(1):47-52. 被引量：4
2朱大奇,颜明重.移动机器人路径规划技术综述[J].控制与决策,2010,25(7):961-967. 被引量：329
3蒙波,皮亦鸣,曹宗杰.基于改进A^＊算法的无人机航迹规划[J].计算机仿真,2010,27(9):29-32. 被引量：14
4姚明海,瞿心昱.基于自适应子空间在线PCA的手势识别[J].模式识别与人工智能,2011,24(2):299-304. 被引量：8
5陈秋松.基于特征增量的新类识别方法研究[J].科技和产业,2015,15(3):94-97. 被引量：2
6李相民,薄宁,代进进.基于模型预测控制的多无人机避碰航迹规划研究[J].西北工业大学学报,2017,35(3):513-522. 被引量：18
7高佳程,朱永利,贾亚飞,郑艳艳,刘帅.基于改进SVDD算法与马氏距离的未知局部放电类型的识别[J].电工技术学报,2018,33(15):3510-3517. 被引量：11
8邵长旭,王茂森,戴劲松,陈斌.基于蚁群算法的无人机最短航路规划[J].兵工自动化,2018,37(9):93-96. 被引量：10
9张敏龙,王涛,王旭平,赵军红.带故障样本的弹性双阈值SVDD在线故障诊断算法及其应用[J].振动工程学报,2016,29(3):555-560. 被引量：7
10程潇,董超,陈贵海,王蔚峻,戴海鹏.面向无人机自组网编队控制的通信组网技术[J].计算机科学,2018,45(11):1-12. 被引量：11

共引文献9

1王智伟,苏建华,黄开启,顾启鹏,孟严.基于DMP的双臂机器人装配策略研究[J].现代制造工程,2021(4):33-40. 被引量：2
2楼传炜,葛泉波,刘华平,袁小虎.无人机群目标搜索的主动感知方法[J].智能系统学报,2021,16(3):575-583. 被引量：7
3刘冬,袁利恒,丛明.齿轮机器人复杂装配过程在线建模与参数优化[J].机械工程学报,2021,57(13):124-131. 被引量：3
4支乐威,陈教料,王佳才,胥芳,张立彬.基于参数优化的机器人花键装配偏角感知识别方法[J].浙江大学学报（工学版）,2022,56(3):452-461. 被引量：1
5祝保朝.基于大数据支撑的森林火灾监测预警系统研究[J].软件,2022,43(5):29-31.
6陈平,李灿,雷学军.3D视觉结合图像检测与导纳控制的圆轴孔零件机器人装配[J].控制与决策,2023,38(4):963-970. 被引量：3
7艾洲.基于DGB_RRT算法的无人机自主航迹规划[J].广西电力,2022,45(5):26-32. 被引量：1
8杨秀霞,王晨蕾,张毅,于浩,姜子劼.基于增量式发育深度强化学习的无人机路径规划[J].飞行力学,2023,41(3):40-46. 被引量：3
9王战玺,张益铭,张邦海,罗子彦,史梦格.双机器人协作轴孔装配力柔顺控制技术研究[J].机械工程学报,2024,60(3):20-33. 被引量：1

同被引文献17

1贾永楠,田似营,李擎.无人机集群研究进展综述[J].航空学报,2020(S01):4-14. 被引量：91
2宗群,王丹丹,邵士凯,张博渊,韩宇.多无人机协同编队飞行控制研究现状及发展[J].哈尔滨工业大学学报,2017,49(3):1-14. 被引量：143
3Yang Yang,Li Juntao,Peng Lingling.Multi-robot path planning based on a deep reinforcement learning DQN algorithm[J].CAAI Transactions on Intelligence Technology,2020,5(3):177-183. 被引量：35
4吴文海,郭晓峰,周思羽.基于改进约束差分进化算法的动态航迹规划[J].控制与决策,2020,35(10):2381-2390. 被引量：11
5孙辉辉,胡春鹤,张军国.移动机器人运动规划中的深度强化学习方法[J].控制与决策,2021,36(6):1281-1292. 被引量：31
6王锦锦,祁圣君,钟海,粟建波.基于Dubins曲线的一致性编队集结控制[J].计算机仿真,2021,38(7):40-44. 被引量：2
7赵健,杜金朋,朱冰,王志伟,陈志成,陶晓文.基于自适应动态滑模控制的智能汽车纵向巡航控制[J].汽车工程,2022,44(1):8-16. 被引量：13
8Dong SUI,Weiping XU,Kai ZHANG.Study on the resolution of multi-aircraft flight conflicts based on an IDQN[J].Chinese Journal of Aeronautics,2022,35(2):195-213. 被引量：8
9李哲,王扬帆,尹凯璇,王子涵,王昊.基于模糊滑模控制的无人车路径跟踪[J].河北水利电力学院学报,2022,32(1):9-15. 被引量：1
10杨琛,蒋鑫,白波,宋秋红.遗传算法优化PID控制器参数的路径跟踪控制[J].制造业自动化,2022,44(5):78-81. 被引量：14

引证文献2

1李格锋.基于模型预测控制的车辆避障路径规划与跟踪[J].汽车实用技术,2024,49(6):49-54. 被引量：1
2唐恒,孙伟,吕磊,贺若飞,吴建军,孙昌浩,孙田野.融合动态奖励策略的无人机编队路径规划方法[J].系统工程与电子技术,2024,46(10):3506-3518.

二级引证文献1

1胡爽禄,华贤平,窦民,费慧莉,伏子敬.汽车端到端自动驾驶现状与发展趋势[J].时代汽车,2024(13):4-6.

1杨秀霞,王晨蕾,张毅,于浩,姜子劼.基于增量式发育深度强化学习的无人机路径规划[J].飞行力学,2023,41(3):40-46. 被引量：3
2刘昀铮,曾德贤,张程,仇恒德.基于改进萤火虫算法的海上移动目标无人机路径规划[J].中国科技期刊数据库工业A,2023(7):194-200.
3征订《质量管理改进创新优秀成果案例集》[J].中国质量,2023(7):67-67.
4冯建新,解爽,郭冠麟,潘成胜.POMDP-APF:一种基于POMDP模型的APF无人机路径规划策略[J].计算机应用研究,2023,40(7):2124-2129. 被引量：1
5李国博,黄志聪.基于AI的Massive mimo天线权值均衡系统研究[J].通信与信息技术,2023(4):92-95.

电光与控制

2023年第8期

浏览历史

内容加载中请稍等...

基于逆向强化学习的无人机路径规划被引量：2

参考文献2

二级参考文献11

共引文献9

同被引文献17

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于逆向强化学习的无人机路径规划 被引量：2

参考文献2

二级参考文献11

共引文献9

同被引文献17

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于逆向强化学习的无人机路径规划被引量：2