基于强化学习的禁飞区绕飞智能制导技术

Intelligent guidance for no⁃fly zone avoidance based on reinforcement learning

导出

摘要人工智能(AI)的快速发展为飞行器制导技术的研究提供新的技术途径。本文针对高速飞行器面临不确定禁飞区的绕飞问题,提出“预测校正制导—基于监督学习预训练倾侧角制导模型—基于强化学习进一步升级倾侧角制导模型”逐级递进的禁飞区绕飞智能制导研究框架:一是基于传统预测校正制导生成大量禁飞区绕飞样本轨迹,并基于监督学习方法对倾侧角制导模型进行预训练;二是进一步采用强化学习中近端策略优化算法(PPO)升级倾侧角制导模型,通过飞行器与带有不确定禁飞区环境的大量交互探索,并设置有效的奖励引导,充分挖掘高升阻比飞行器强大的横向机动能力,摆脱传统预测校正制导方法对倾侧角解空间的约束,期望产生更优的绕飞策略。通过与传统预测校正制导和基于监督学习的智能制导的对比分析,验证了基于强化学习的禁飞区绕飞智能制导技术能够充分发挥飞行器的宽域飞行优势,满足未来飞行器智能决策系统对不确定绕飞场景的适应性需求。 The rapid development of Artificial Intelligence(AI)provides a new technical approach for the research of aircraft guidance.Aiming at the problem of reentry aircraft for avoiding uncertain no-fly zone,we propose the research frame of“predictor-corrector guidance-pre-training of bank angle guidance model based on supervised learning-further training of bank angle guidance model based on reinforcement learning”.On the one hand,lots of flying trajectory for avoiding no-fly zone are produced by predictor-corrector guidance.The bank angle guidance model is pre-trained with supervised learning algorithm.On the other hand,the bank angle guidance model is further trained by the use of Proximal Policy Optimization(PPO)algorithm.A large number of exploration interactions are taken between aircraft and environment with uncertain no-fly-zone.At the same time,the powerful lateral maneuverability of high lift-drag ra⁃tio reentry aircraft is exploited with effective reward.Such method will get rid of restriction of bank angle solution space produced by predictor-corrector guidance,which is expected to produce better strategy for avoiding no-fly zone.By comparing with traditional predictor-corrector guidance and intelligent guidance based on supervised learning,it is veri⁃fied that the no-fly zone intelligent guidance technology based on reinforcement learning can fully exploit the wide area flight advantages of aircraft,so as to meet the adaptability requirements of future intelligent decision system under un⁃certain scenarios.

作者惠俊鹏汪韧郭继峰 HUI Junpeng;WANG Ren;GUO Jifeng(School of Astronautics,Harbin Institute of Technology,Harbin 150006,China;China Academy of Aerospace Science and Innovation,Beijing 100176,China)

机构地区哈尔滨工业大学航天学院中国航天科技创新研究院

出处《航空学报》 EI CAS CSCD 北大核心 2023年第11期235-247,共13页 Acta Aeronautica et Astronautica Sinica

基金国家级项目。

关键词智能制导禁飞区绕飞强化学习 PPO算法监督学习 intelligent guidance no-fly zone avoidance reinforcement learning PPO algorithm supervised learning

分类号 V448.235 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献18

1包为民.航天飞行器控制技术研究现状与发展趋势[J].自动化学报,2013,39(6):697-702. 被引量：78
2高长生,陈尔康,荆武兴.高超声速飞行器机动规避轨迹优化[J].哈尔滨工业大学学报,2017,49(4):16-21. 被引量：13
3李柯,聂万胜,冯必鸣.助推-滑翔飞行器规避能力研究[J].飞行力学,2013,31(2):148-151. 被引量：3
4卢青,周军,周敏.考虑禁飞区的高超声速飞行器再入制导[J].西北工业大学学报,2017,35(5):749-754. 被引量：3
5高兴,张璐,韦常柱.面向禁飞区约束的再入滑翔飞行器快速轨迹规划[J].战术导弹技术,2018(5):62-67. 被引量：4
6赵江,周锐,张超.考虑禁飞区规避的预测校正再入制导方法[J].北京航空航天大学学报,2015,41(5):864-870. 被引量：18
7赵亮博,徐玮,董超,朱广生,庄凌.基于虚拟目标导引的再入飞行器禁飞区规避制导方法研究[J].中国科学：物理学、力学、天文学,2021,51(10):61-70. 被引量：1
8章吉力,周大鹏,杨大鹏,刘然,刘凯.禁飞区影响下的空天飞机可达区域计算方法[J].航空学报,2021,42(8):265-278. 被引量：4
9章吉力,刘凯,樊雅卓,佘智勇.考虑禁飞区规避的空天飞行器分段预测校正再入制导方法[J].宇航学报,2021,42(1):122-131. 被引量：14
10高杨,蔡光斌,徐慧,杨小冈,张胜修.虚拟多触角探测的高超声速滑翔飞行器再入机动制导[J].航空学报,2020,41(11):126-141. 被引量：7

二级参考文献132

1雍恩米,陈磊,唐国金.飞行器轨迹优化数值方法综述[J].宇航学报,2008,29(2):397-406. 被引量：123
2Amanda LAMPTON,John VALASEK,Mrinal KUMAR.Multiresolution state-space discretization for Q-Learning with pseudorandomized discretization[J].控制理论与应用（英文版）,2011,9(3):431-439. 被引量：1
3江绍东,韩鸿硕.美国可复用运载器现行方案概况[J].中国航天,2004(5):21-25. 被引量：2
4江绍东,韩鸿硕.欧洲可重复使用运载器现行方案概况[J].中国航天,2004(6):25-28. 被引量：3
5刘莉,李怀建.机载布撒器滑翔方案弹道优化与方案弹道库设计[J].弹箭与制导学报,2004,24(3):61-64. 被引量：5
6查旭,崔平远,常伯浚.攻击固定目标的飞行器制导控制一体化设计[J].宇航学报,2005,26(1):13-18. 被引量：21
7张文志,吕恬生.Reactive fuzzy controller design by Q-learning for mobile robot navigation[J].Journal of Harbin Institute of Technology(New Series),2005,12(3):319-324. 被引量：5
8杨勇.我国重复使用运载器发展思路探讨[J].导弹与航天运载技术,2006(4):1-4. 被引量：28
9果琳丽,申麟,杨勇,胡德风.中国航天运输系统未来发展战略的思考[J].导弹与航天运载技术,2006(1):1-5. 被引量：3
10龙乐豪,王小军,果琳丽.中国进入空间能力的现状与展望[J].中国工程科学,2006,8(11):25-28. 被引量：9

共引文献182

1郑成辰,李辉,陶伟,刘思成,吴冯国,何立.基于深度强化学习的导弹末端约束角制导律[J].战术导弹技术,2022(6):93-102. 被引量：1
2黄琳,杨莹,王金枝.信息时代的控制科学[J].中国科学：信息科学,2013,43(11):1511-1516. 被引量：1
3牛亚峰,党常平,杨成伟.航天器姿态机动的滑模变结构控制与仿真[J].科学技术与工程,2014,22(13):296-299.
4余光学,李昭莹,林平.可重复使用运载器再入数学建模[J].中国空间科学技术,2014,34(3):23-31. 被引量：6
5王融,熊智,刘建业,钟丽娜.自适应P值映射的惯性/天文角度组合导航算法[J].控制理论与应用,2014,31(5):560-565. 被引量：1
6黄頔,郝宇清,段志生.可重复使用天地往返飞行器中的多输入控制问题[J].控制理论与应用,2014,31(7):878-889. 被引量：7
7姚玮,罗建军,方群.一种新的升力式再入投送系统轨道部署方法[J].宇航学报,2014,35(9):992-999. 被引量：2
8李公军,孟斌.非最小相位高超声速飞行器自适应动态面控制[J].系统科学与数学,2014,34(7):769-779. 被引量：3
9赵欣,王仕成,廖守亿,马龙,刘志国.基于抗差自适应容积卡尔曼滤波的超紧耦合跟踪方法[J].自动化学报,2014,40(11):2530-2540. 被引量：20
10孟斌.基于特征模型的高超声速飞行器自适应控制研究进展[J].控制理论与应用,2014,31(12):1640-1649. 被引量：7

1冯海燕.基于财务共享模式的烟草企业内部控制措施研究[J].商情,2023(30):0005-0008.
2马晗,方芳,陈强,李福贵,李彦斌,费庆国.空天飞行器热防护与热管理技术分析与展望[J].空天技术,2023(1):98-106. 被引量：2
3杨玉腾,李治权,冷俊杰.基于任务需求的高速旋翼机多方案对比研究[J].航空科学技术,2023,34(5):7-13. 被引量：5
4霍明英,范子琛,王猛,齐乃明.追风赶月莫停留,平芜尽处是春山[J].中国研究生,2023(3):28-31.
5马宗义,肖伯律,张峻凡,朱士泽,王东.航天装备牵引下的铝基复合材料研究进展与展望[J].金属学报,2023,59(4):457-466. 被引量：7
6黄健.大数据技术下的智慧医院疾病预测[J].中国科技信息,2023(15):83-86. 被引量：1
7殷晓晨,戴安琦,江海龙.空间动线理论下高铁站导视系统设计——以合肥南站为例[J].创意与设计,2023(2):54-63.
8黄煜镔,钟轶峰.大学教育中人工智能的影响问题探讨[J].中国科技经济新闻数据库教育,2023(8):0043-0045.
9杨智,谈锦锋,庞淼,熊杰.基于专家知识库的页岩气采气工艺智能决策系统设计与应用[J].中国石油和化工标准与质量,2023,43(11):7-9. 被引量：1
10于军琪,康智桓,荆竞,赵安军,陈时羽.基于IWOA算法求解并联冷机负荷分配问题[J].计算机测量与控制,2023,31(7):169-176.

航空学报

2023年第11期

浏览历史

内容加载中请稍等...

基于强化学习的禁飞区绕飞智能制导技术

参考文献18

二级参考文献132

共引文献182

相关作者

相关机构

相关主题

浏览历史