深度确定性策略梯度算法用于无人飞行器控制被引量：9

Deep deterministic policy gradient algorithm for UAV control

导出

摘要对深度确定性策略梯度算法训练智能体学习小型无人飞行器的飞行控制策略进行了探索研究。以多数据帧的速度、位置和姿态角等信息作为智能体的观察状态,舵摆角和发动机推力指令作为智能体的输出动作,飞行器的非线性模型和飞行环境作为智能体的学习环境。智能体在与环境交互过程中除了获得包含误差信息的密集惩罚外,也有达成一定目标的稀疏奖励,该设计有效提高了飞行数据的样本多样性,增强了智能体的学习效率。最后智能体实现了从位置、速度和姿态角等信息到控制量的端到端飞行控制,并进行了变航迹点、模型参数拉偏、注入扰动和故障条件下的飞行控制仿真,结果表明智能体除了能有效完成训练任务外,还能应对多种训练时未学习的飞行任务,具有优秀的泛化能力和鲁棒性,该方法具有一定的研究价值和工程参考价值。 The deep deterministic policy gradient algorithm is used to train the agent to learn the flight control strategy of a small UAV. The velocity, position and attitude angle of multi data frames are taken as the observation state of the agent, the rudder deflection angle and engine thrust command the output actions of the agent, and the nonlinear model and flight environment of the UAV the learning environment of the agent. In the interaction process between the agent and the environment, sparse rewards are provided to achieve certain goals, in addition to the dense punishment including error information, thereby effectively improving the diversity of flight data samples and enhancing the learning efficiency of the agent. The agent finally realizes the end-to-end flight control from the position, velocity and attitude angle to the control variables. In addition, the flight control simulations under the conditions of variable track point, model parameter deviation, disturbance and fault are carried out. Simulation results show that the agent can not only effectively complete the training task, but also deal with a variety of flight tasks not learned during training, showing excellent generalization ability and exhibiting certain research value and engineering reference value of the method.

作者黄旭柳嘉润贾晨辉王昭磊张隽 HUANG Xu;LIU Jiarun;JIA Chenhui;WANG Zhaolei;ZHANG Jun(Beijing Aerospace Automatic Control Institute,Beijing 100854,China;National Key Laboratory of Science and Technology on Aerospace Intelligent Control,Beijing 100854,China)

机构地区北京航天自动控制研究所宇航智能控制技术国家级重点实验室

出处《航空学报》 EI CAS CSCD 北大核心 2021年第11期397-407,共11页 Acta Aeronautica et Astronautica Sinica

基金国家自然科学基金(61773341)。

关键词深度确定性策略梯度小型无人飞行器飞行控制端到端稀疏奖励 deep deterministic policy gradient small UAV flight control end to end sparse reward

分类号 V249.1 [航空宇航科学与技术—飞行器设计] V448.2 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献5

1符文星,郭行,闫杰.智能无人飞行器技术发展趋势综述[J].无人系统技术,2019,2(4):31-37. 被引量：23
2雷旭升,陶冶.小型无人飞行器风场扰动自适应控制方法[J].航空学报,2010,31(6):1171-1176. 被引量：10
3刘德元,刘昊,Frank L LEWIS.尾座式无人飞行器鲁棒容错编队控制[J].航空学报,2021,42(2):297-305. 被引量：3
4党小为,唐鹏,孙洪强,郑琛.基于角加速度估计的非线性增量动态逆控制及试飞[J].航空学报,2020,41(4):188-196. 被引量：11
5陈书钊,楚龙飞,杨秀梅,蔡德淮.状态预测神经网络控制应用于小型可回收火箭[J].航空学报,2019,40(3):149-163. 被引量：14

二级参考文献56

1王晶,顾维博,窦立亚.基于Leader-Follower的多无人机编队轨迹跟踪设计[J].航空学报,2020(S01):88-98. 被引量：30
2马平,杨金芳,崔长春,胡胜坤.解耦控制的现状及发展[J].控制工程,2005,12(2):97-100. 被引量：57
3朱家强,朱纪洪,郭锁凤,孙增圻.基于神经网络的鲁棒自适应逆飞行控制[J].控制理论与应用,2005,22(2):182-188. 被引量：21
4Shim D H, Kim H J, Sastry S. A flight control system for aerial robots: algorithms and experiments[J].IFAC Control Engineering Practice, 2003, 11(12) : 1389- 1400.
5Putz P. Space robotics in Europe: a survey[J]. Robotics and Autonomous Systems, 1998, 23(1/2) :3 -16.
6Paul T, Krogstad T R, Gravdahl J T. Modelling of UAV formation flight using 3D potential field [J]. Simulation Modelling Practice and Theory, 2008, 16(9):1453-1462.
7Augiar A P, Hespaha J P, Kokotovic P V. Path-following for nonminimum phase systems removes performance limitations[J]. IEEE Transactions on Automatic Control, 2005, 50(2): 234-239.
8Jung D. Hierarchical path planning and control of a small fixed wing UAV: theory and experimental validation[D]. Atlanta: Georgia Institute of Technology, 2007.
9Park S, Deyst J, How J P. A new nonlinear guidance logic for trajectory tracking[R]. AIAA-2004-4900, 2004.
10Campa G, Gu Y, Seanor B, et al. Design and flight-testing of non linear formation control laws[J]. Control Engineering Practice, 2007, 15(9): 1077-1092.

共引文献56

1孙广开,李红,吴越,张旭,何彦霖,祝连庆.遥感航天器在轨结构微变形光纤监测技术发展综述[J].仪器仪表学报,2022,43(12):1-14. 被引量：2
2李璟澜,杨秦敏.带预设性能的火箭垂直着陆段姿态自适应控制设计[J].宇航总体技术,2020(5):1-7. 被引量：1
3缪存孝,房建成,盛蔚.一种非线性航迹自适应跟踪控制方法[J].北京航空航天大学学报,2012,38(4):427-431. 被引量：4
4刘跃,靖艾屏.2000年长安向百姓奉献四道“大餐”[J].大众汽车,2000(4):17-18.
5陈侠,鹿振宇.风场干扰下基于一致性卡尔曼滤波的UAV编队控制算法[J].兵工自动化,2013,32(10):28-32. 被引量：6
6朱熠,陈欣,李春涛,杨艺.风扰动下的飞翼无人机静态投影控制[J].兵工学报,2015,36(7):1237-1246. 被引量：7
7张坤,高晓光.未知风场扰动下无人机三维航迹跟踪鲁棒最优控制[J].电子与信息学报,2015,37(12):3009-3015. 被引量：4
8杜金祥,杜宇轩.风力摆的精确控制设计[J].电子设计工程,2016,24(11):127-129.
9李争学,贺元军,张广春,李杰奇,张永.风干扰引起的飞行器附加攻角和附加侧滑角计算方法[J].导弹与航天运载技术,2016(5):66-73. 被引量：3
10陆兴华,詹世尉,余文权,黄臣炜.改进PID的无人机飞行姿态角控制消颤算法[J].传感器与微系统,2017,36(3):116-119. 被引量：7

同被引文献58

1王斯财,南英,刘经纬.导弹迎击时飞机的最佳逃逸策略研究[J].航空兵器,2009,16(4):28-32. 被引量：17
2李柯,聂万胜,冯必鸣.助推-滑翔飞行器规避能力研究[J].飞行力学,2013,31(2):148-151. 被引量：3
3包为民.航天飞行器控制技术研究现状与发展趋势[J].自动化学报,2013,39(6):697-702. 被引量：80
4巩鹏潇,詹浩,柳子栋.舰尾流影响下的舰载机着舰控制与仿真研究[J].航空工程进展,2013,4(3):339-345. 被引量：5
5谭浪,巩庆海,王会霞.基于深度强化学习的追逃博弈算法[J].航天控制,2018,36(6):3-8. 被引量：12
6赵江,周锐,张超.考虑禁飞区规避的预测校正再入制导方法[J].北京航空航天大学学报,2015,41(5):864-870. 被引量：20
7董朝阳,江未来,王青.变翼展飞行器平滑切换LPV鲁棒H_∞控制[J].宇航学报,2015,36(11):1270-1278. 被引量：10
8樊会涛,崔颢,天光.空空导弹70年发展综述[J].航空兵器,2016,23(1):3-12. 被引量：89
9郑峰婴,龚华军,甄子洋.基于坐标系动态变化的无人机着舰引导算法[J].中南大学学报（自然科学版）,2016,47(8):2685-2693. 被引量：2
10高长生,陈尔康,荆武兴.高超声速飞行器机动规避轨迹优化[J].哈尔滨工业大学学报,2017,49(4):16-21. 被引量：13

引证文献9

1宋宏川,詹浩,夏露,李向阳,刘艳.基于深度确定性策略梯度算法的战机规避中距空空导弹研究[J].航空工程进展,2021,12(3):85-94. 被引量：3
2黄江涛,刘刚,周攀,章胜,杜昕.基于深度强化学习技术的舰载无人机自主着舰控制研究[J].南京师范大学学报（工程技术版）,2022,22(3):63-71. 被引量：3
3马少捷,惠俊鹏,王宇航,张旋.变形飞行器深度强化学习姿态控制方法研究[J].航天控制,2022,40(6):3-10. 被引量：1
4杨子江,潘向宁,李雪菲,付大康.无人驾驶跨介质飞行器旋翼高精度步进控制装置设计与实现[J].自动化与仪表,2023,38(2):43-46. 被引量：1
5胥彪,赵琛钰,李爽,朱东方.基于深度强化学习的高超声速飞行器动态面控制方法[J].飞控与探测,2023,6(1):15-23. 被引量：1
6吴健发,魏春岭,张海博,李克行,郝仁剑.基于深度强化学习的航天器多约束规避动作快速规划[J].空间控制技术与应用,2023,49(2):1-9. 被引量：4
7惠俊鹏,汪韧,郭继峰.基于强化学习的禁飞区绕飞智能制导技术[J].航空学报,2023,44(11):235-247. 被引量：4
8丁溶,曹承钰,李繁飙,谢启超,廖宇新.基于深度强化学习的变外形飞行器姿态控制[J].航天控制,2024,42(2):55-61.
9王昭磊,王露荻,路坤锋,禹春梅,李晓敏,林平.神经网络架构轻量化搜索的飞行器控制律自学习方法[J].宇航学报,2024,45(5):762-769.

二级引证文献17

1刘丰瑞,颜格,张晓龙,张文明,王国鹏.基于深度强化学习的动基座双自由度系统动力学控制方法[J].动力学与控制学报,2023,21(10):26-33.
2郭强,何胜杰,程家林,王兴虎,孙亘,郭菲.一种无人机自主规避导弹的威胁度评估方法[J].航空科学技术,2022,33(7):8-14. 被引量：1
3王壮,艾毅,文旭光,李辉.航空器智能引导机动决策奖励重塑方法[J].科学技术与工程,2023,23(8):3535-3543. 被引量：1
4吴冯国,陶伟,李辉,张建伟,郑成辰.基于深度强化学习算法的无人机智能规避决策[J].系统工程与电子技术,2023,45(6):1702-1711.
5杜德嵩,宋以拓,刘延芳,王旭,齐乃明.面向空间航天器机器人学习算法研究的高保真仿真平台[J].空间控制技术与应用,2023,49(3):10-17. 被引量：1
6崔立志,钟航,董文娟.基于改进优先经验回放的SAC算法路径规划[J].空间控制技术与应用,2023,49(5):55-64. 被引量：1
7张子军,张山,王衍洋.不同海况条件下舰载无人机着舰安全分析[J].哈尔滨工程大学学报,2024,45(1):136-143.
8邱建铭.AI强化学习算法在陶瓷雕刻机器设备中的应用研究[J].自动化与仪器仪表,2023(12):192-196.
9刘帅,赵冬梅.跨介质无人机的技术问题与解决方案分析[J].集成电路应用,2024,41(3):70-73.
10王晓威,殷玮,杨亚,沈昱恒,颜涛.基于DDPG的高速飞行器预测校正制导律设计[J].航天控制,2024,42(2):22-28.

1庄淡盛.数字式无人机飞行控制系统的实现[J].电子技术与软件工程,2021(19):109-110. 被引量：1
2刘堂平.关于幼儿教师观察技巧提升的几点思考[J].儿童与健康,2021(2):44-45.
3周虹,曹达敏.新工科背景下“飞行控制仿真”开放性实践教学思考[J].中国多媒体与网络教学学报（电子版）,2020(31):114-115. 被引量：2
4赵悦,徐明华,尤燕飞,居朱涛,陈易文.飞行器质心平衡供油策略优化研究[J].数学的实践与认识,2021,51(23):319-329.
5吴美平,唐康华,任彦超,郭妍.基于SiP的低成本微小型GNC系统技术[J].导航定位与授时,2021,8(6):19-27. 被引量：4
6杨玉霞,陈留亮.农用四旋翼飞行器避障系统设计——基于机器视觉和无线定位[J].农机化研究,2022,44(5):101-104. 被引量：3
7刘灵哲,周健,卢健,王耿.基于PSO-LSSVM的小型无人直升机模型辨识[J].飞行力学,2021,39(6):89-94. 被引量：1
8周敏,周凤岐,周军,郭建国.变质心技术发展与应用[J].航空兵器,2021,28(6):7-13. 被引量：1
9张晶晶,王建清,李桂芳,陈川,石华云.基于飞行角度优化的蚁群改进算法[J].飞控与探测,2021,4(6):9-15. 被引量：2
10杨芳,李翔宇,高清运.可重构交换机报文解析器的设计[J].南开大学学报（自然科学版）,2021,54(6):17-22.

航空学报

2021年第11期

浏览历史

内容加载中请稍等...

深度确定性策略梯度算法用于无人飞行器控制被引量：9

参考文献5

二级参考文献56

共引文献56

同被引文献58

引证文献9

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

深度确定性策略梯度算法用于无人飞行器控制 被引量：9

参考文献5

二级参考文献56

共引文献56

同被引文献58

引证文献9

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

深度确定性策略梯度算法用于无人飞行器控制被引量：9