基于强化学习的无人机安全避障与围捕制导

Reinforcement learning-based safety obstacle avoidance and capture guidance for UAV

导出

摘要针对无人机在受约束环境下面临绕飞障碍物与跟踪目标相互掣肘的问题,提出了一种基于强化学习的无人机安全避障与围捕制导方法。根据极坐标原理设计环绕跟踪控制器,驱使无人机在GPS拒止的情况下到达预设的圆形轨道。将环绕约束和障碍物约束转化为马尔可夫过程,以速度、径向误差、角速度误差和碰撞函数为状态空间,以控制器的补偿量为动作空间,设计考虑跟踪误差和碰撞概率的奖励函数,利用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法对智能体进行训练,增强跟踪效果并获得避碰能力,实现无人机对静止/运动目标的环绕跟踪;此外,在训练过程中引入课程学习,将过去的学习策略转移到当前事件,与经典的随机参数设置相比,具有更快的收敛速度。最后仿真表明,所提算法可以引导无人机圆形环绕控制的同时高效规避障碍物。 To solve the problem that the unmanned aerial vehicle(UAV)faces the mutual constraint between the flying obstacle and the target tracking in the constrained environment,a method of reinforcement learning-based safety obstacle avoidance and capture guidance for UAV is proposed.According to the principle of polar coordinates,the surround tracking controller is designed to drive the UAV to a preset circular orbit in GPS-denied presence.The surround constraint and obstacle avoidance constraint are all transformed into the Markov process,taking velocity,radial error,angular velocity error and obstacle function as state space,and the compensation of control as action space.The reward function considering radial error and obstacle probability is designed.The tracking effect is enhanced and the obstacle avoidance ability is obtained by virtue of the deep deterministic policy gradient(DDPG)algorithm to train the generated agent,and then the UAV surround tracking of stationary/moving targets is realized.Additionally,the introduction of the course learning in the training process transfers past learning strategies to current events and has a faster convergence rate compared to the classical random parameter settings.Finally,the simulation results show that the proposed algorithm can guide the UAV to elliptical surround control and avoid obstacles efficiently.

作者梅泽伟邵星灵刘俊 Mei Zewei;Shao Xingling;Liu Jun(North University of China,Taiyuan 030051,China)

机构地区中北大学

出处《战术导弹技术》北大核心 2024年第2期93-105,共13页 Tactical Missile Technology

基金国家自然科学基金项目(61803348)。

关键词强化学习避障无人机目标跟踪环绕 GPS拒止 reinforcement learning obstacle avoidance unmanned aerial vehicles target tracking encircle GPS-denied

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] V279 [航空宇航科学与技术—飞行器设计] V249 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献13

1陈鹏,宋愿赟,李文静,薛凯.临近空间高速侦察与监视载荷技术研究综述[J].战术导弹技术,2021(1):7-12. 被引量：8
2张宇明,徐连明,印思源,江林润,王莉,费爱国.面向信息年龄的应急无人机网络低能耗信息采集和传输调度机制[J].通信学报,2023,44(7):1-13. 被引量：3
3骆文冠,于小兵.基于强化学习布谷鸟搜索算法的应急无人机路径规划[J].灾害学,2023,38(2):206-212. 被引量：5
4李琳,张修社,韩春雷,马浩.基于卡尔曼滤波和DDQN算法的无人机机动目标跟踪[J].战术导弹技术,2022(2):98-104. 被引量：5
5寇立伟,项基.基于输出反馈线性化的多移动机器人目标包围控制[J].自动化学报,2022,48(5):1285-1291. 被引量：3
6赵振华,肖亮,姜斌,曹东.基于扩张状态观测器的四旋翼无人机快速非奇异终端滑模轨迹跟踪控制[J].控制与决策,2022,37(9):2201-2210. 被引量：27
7邵星灵,岳晓辉,刘俊,李杰,唐军.基于固定阈值事件触发扩张状态观测器的多智能体协同目标环绕控制[J].导航定位与授时,2021,8(1):41-54. 被引量：2
8付雷,秦一杰,何顶新,刘智伟.基于改进人工势场法的多机器人编队避障[J].控制工程,2022,29(3):388-396. 被引量：11
9余翔,姜陈,段思睿,邓千锐.改进A^(*)算法和人工势场法的路径规划[J].系统仿真学报,2024,36(3):782-794. 被引量：7
10李薪颖,单梁,常路,屈艺,张永.复杂环境下基于多目标粒子群的DWA路径规划算法[J].国防科技大学学报,2022,44(4):52-59. 被引量：18

二级参考文献88

1李俊芳,李峰,吉月辉,高强.四旋翼无人机轨迹稳定跟踪控制[J].控制与决策,2020,35(2):349-356. 被引量：21
2邹湘军,罗锡文,卢俊,罗陆锋,李宗樑,莫雪生,范蕾.虚拟环境下农业移动机器人行为及其仿真建模[J].系统仿真学报,2006,18(z2):551-553. 被引量：23
3马兆青,袁曾任.基于栅格方法的移动机器人实时导航和避障[J].机器人,1996,18(6):344-348. 被引量：91
4黄炳强,曹广益.基于人工势场法的移动机器人路径规划研究[J].计算机工程与应用,2006,42(27):26-28. 被引量：38
5李小将,李志德,杨健,安宜贵.临近空间装备体系概念及关键问题研究[J].装备指挥技术学院学报,2007,18(4):72-77. 被引量：23
6陈杨杨,田玉平.多智能体沿多条给定路径编队运动的有向协同控制[J].自动化学报,2009,35(12):1541-1549. 被引量：20
7毕鹏,罗建军,张博.一种基于一致性理论的航天器编队飞行协同控制方法[J].宇航学报,2010,31(1):70-74. 被引量：33
8王林,彭辉,朱华勇,沈林成.应用无人机跟踪地面目标——最新研究进展[J].系统仿真学报,2010,22(A01):172-177. 被引量：13
9贾庆轩,陈钢,孙汉旭,郑双奇.基于A＊算法的空间机械臂避障路径规划[J].机械工程学报,2010,46(13):109-115. 被引量：119
10何炬恒,聂万胜,徐灿,刘志林.临近空间侦察平台建设研究[J].舰船电子对抗,2010,33(6):11-14. 被引量：5

共引文献94

1刘晓亮,任文清,马平,赵俊达,周立军.复杂地质条件矿用自行走式掘进机器人自适应避障研究[J].煤炭工程,2022,54(S01):210-214. 被引量：3
2刘晨阳,吴大伟,郭一泽,吕欣赛,周佳妮,邵书义.不确定强耦合下四旋翼姿态鲁棒自适应控制[J].航空学报,2023,44(S01):150-159. 被引量：1
3张宇轩,贺勇.基于自适应状态观测器的无人机自耦PD轨迹跟踪[J].信息化研究,2022,48(6):7-13.
4冉宁,杨宏飞,张家明,郝晋渊.基于改进蚁群算法的无人机三维航迹规划[J].电子测量技术,2023,46(20):41-49.
5朱胜涛,戴娟,刘海涛,李剑锋.Bezier曲线与A-Star算法融合的火星探测器路径规划[J].电子测量技术,2023,46(19):69-75.
6马俊,朱猛,王才喜,史文杰.临近空间光电探测技术与发展展望[J].空天技术,2022(2):85-96. 被引量：6
7刘亚,曾俊宝.未知环境下多AUV协同避障方法研究[J].计算机应用研究,2022,39(10):2929-2934. 被引量：2
8上官霞.基于神经网络的机器人运行自动化控制方法研究[J].工业仪表与自动化装置,2022(5):71-75. 被引量：1
9夏济宇,周洲,王正平,王睿.基于NLESO的倾转动力无人机垂直起降模态轨迹跟踪控制[J].西北工业大学学报,2023,41(1):1-10. 被引量：2
10朱亮,戚少博,王鹏,张世杰.低轨宽带卫星互联网支持高动态空间飞行器应用研究[J].天地一体化信息网络,2023,4(1):103-110.

1曲海成,袁旭东,李佳琦.适用于约束环境的轻量级目标检测模型[J].计算机工程与应用,2024,60(6):274-281.
2无.中国空间站全貌高清图像首次公布[J].企业观察家,2023(11):6-7.
3林威.基于自监督学习和数据回放的新闻推荐模型增量学习方法[J].计算机与现代化,2023(12):1-6.
4郑润来.复杂钢结构杆件预拼装与施工误差控制技术[J].安装,2024(4):51-53. 被引量：1
5周金保,武秀萍,都冰丽,张光华,王烽飞,卓广平,马非.基于双注意力机制的头影标志点检测研究[J].太原学院学报（自然科学版）,2024,42(1):38-46.
6廖剑,高向阳,闫实,周绍磊,王东来,康宇航.基于MPC-PIO的无人飞行器集群编队重构控制[J].北京航空航天大学学报,2024,50(5):1541-1550.
7潘玉恒,陶艺鑫,鲁维佳,李国燕,王丽.基于分层监测域人工势场法的无人驾驶车辆路径规划[J].计算机集成制造系统,2024,30(5):1908-1918. 被引量：1
8魏俊奇.强要素约束环境下村庄规划编制研究——以世业洲兴隆村为例[J].未来城市设计与运营,2024(3):26-28.
9李兆博,孙双蕾.基于鸽群优化改进动态窗的多无人车协同编队避障控制[J].工程科学学报,2024,46(7):1279-1285.
10董豪泽,陈昱达,刘丹,李忠奎.障碍物空间下分布式轨迹规划的死锁破解[J].航空学报,2023,44(S02):426-442.

战术导弹技术

2024年第2期

浏览历史

内容加载中请稍等...

基于强化学习的无人机安全避障与围捕制导

参考文献13

二级参考文献88

共引文献94

相关作者

相关机构

相关主题

浏览历史