拦截大气层内机动目标的深度强化学习制导律被引量：8

Deep Reinforcement Learning Guidance Law for Intercepting Endo-atmospheric Maneuvering Targets

下载PDF

导出

摘要针对大气层内高速机动目标的拦截问题,提出了一种基于双延迟深度确定性策略梯度(TD3)算法的深度强化学习制导律,它直接将交战状态信息映射为拦截弹的指令加速度,是一种端到端、无模型的制导策略。首先,将攻防双方的交战运动学模型描述为适用于深度强化学习算法的马尔科夫决策过程,之后通过合理地设计算法训练所需的交战场景、动作空间、状态空间和网络结构,并引入奖励函数整形和状态随机初始化,构建了完整的深度强化学习制导算法。仿真结果表明:与比例导引和增强比例导引两种方案相比,深度强化学习制导策略在脱靶量更小的同时能够降低对中制导精度的要求;具有良好的鲁棒性和泛化能力,并且计算负担较小,具备在弹载计算机上运行的条件。 Aiming at the problem of intercepting endo-atmospheric high-speed maneuvering targets, a deep reinforcement learning guidance law is proposed based on the twin delayed deep deterministic policy gradient(TD3) algorithm. It directly maps the engagement information to the commanded acceleration of the interceptor, which is an end-to-end, model-free guidance strategy. Firstly, the engagement kinematic model of both sides is described as a Markov decision process suitable for deep reinforcement learning algorithms. After that, a complete deep reinforcement learning guidance algorithm is constructed by reasonably designing the engagement scenarios, action space, state space and network structure required for algorithm training. The reward shaping and random initialization are introduced to construct a complete algorithm. The simulation results show that, compared with the proportional guidance and augmented proportional guidance laws, the proposed guidance strategy can reduce the requirement for mid-course guidance while having smaller miss distances. It has good robustness and generalization ability, with less computational burden that makes it eligible to run on missile-borne computers.

作者邱潇颀高长生荆武兴 QIU Xiaoqi;GAO Changsheng;JING Wuxing(Department of Aerospace Engineering,Harbin Institute of Technology,Harbin 150001,China)

机构地区哈尔滨工业大学航天工程系

出处《宇航学报》 EI CAS CSCD 北大核心 2022年第5期685-695,共11页 Journal of Astronautics

基金国家自然科学基金(12072090)。

关键词导弹制导大气层内拦截机动目标深度强化学习马尔科夫决策 Missile guidance Endo-atmospheric interception Maneuvering target Deep reinforcement learning Markov decision

分类号 TJ765.3 [兵器科学与技术—武器系统与运用工程]

引文网络
相关文献

参考文献10

1司玉洁,熊华,李喆.拦截机动目标的三维自适应神经网络制导律[J].系统仿真学报,2021,33(2):453-460. 被引量：6
2高昂,董志明,叶红兵,宋敬华,郭齐胜.基于深度强化学习的巡飞弹突防控制决策[J].兵工学报,2021,42(5):1101-1110. 被引量：18
3施伟,冯旸赫,程光权,黄红蓝,黄金才,刘忠,贺威.基于深度强化学习的多机协同空战方法研究[J].自动化学报,2021,47(7):1610-1623. 被引量：52
4陈中原,韦文书,陈万春.基于强化学习的多发导弹协同攻击智能制导律[J].兵工学报,2021,42(8):1638-1647. 被引量：18
5Bolun ZHANG,Di ZHOU.Optimal predictive sliding-mode guidance law for intercepting near-space hypersonic maneuvering target[J].Chinese Journal of Aeronautics,2022,35(4):320-331. 被引量：5
6黄景帅,张洪波,汤国建,包为民.拦截大气层内机动目标的自适应积分滑模制导律[J].宇航学报,2019,40(1):51-60. 被引量：11
7张浩,张奕群,张鹏飞.拦截主动防御目标的微分对策制导律[J].系统工程与电子技术,2021,43(5):1335-1345. 被引量：9
8熊少锋,魏明英,赵明元,熊华,王卫红,周本春.逆轨拦截机动目标的三维最优制导律[J].宇航学报,2020,41(1):80-90. 被引量：18
9张帅,郭杨,王仕成.带有引诱角色的有限时间协同制导方法[J].宇航学报,2018,29(3):308-317. 被引量：14
10郭行,符文星,付斌,陈康,闫杰.吸气式高超声速飞行器巡航段突防弹道规划[J].宇航学报,2017,38(3):287-295. 被引量：16

二级参考文献91

1庞艳珂,韩磊,张民权,张明明,武冰.攻击型巡飞弹技术现状及发展趋势[J].兵工学报,2010,31(S2):149-152. 被引量：36
2周慧波,宋申民,刘海坤.具有攻击角约束的非奇异终端滑模导引律设计[J].中国惯性技术学报,2014,12(5):606-611. 被引量：22
3顾文锦,雷军委,潘长鹏.带落角限制的虚拟目标比例导引律设计[J].飞行力学,2006,24(2):43-46. 被引量：31
4郭美芳,范宁军,袁志华.巡飞弹战场运用策略[J].兵工学报,2006,27(5):944-947. 被引量：15
5侯明哲,段广仁.Integrated Guidance and Control of Homing Missiles Against Ground Fixed Targets[J].Chinese Journal of Aeronautics,2008,21(2):162-168. 被引量：23
6孙胜,周荻.有限时间收敛变结构导引律[J].宇航学报,2008,29(4):1258-1262. 被引量：37
7方群,李新三.临近空间高超声速无动力滑翔飞行器最优轨迹设计及制导研究[J].宇航学报,2008,29(5):1485-1491. 被引量：18
8孙未蒙,刘湘洪,郑志强.多约束条件下的制导律研究综述[J].飞行力学,2010,28(2):1-5. 被引量：17
9郭杨,姚郁,王仕成,贺风华.基于有限时间H_2性能指标的导弹机动突防策略设计[J].宇航学报,2010,31(10):2289-2294. 被引量：8
10张友根,张友安.控制撞击时间与角度的三维导引律:一种两阶段控制方法[J].控制理论与应用,2010,27(10):1429-1434. 被引量：17

共引文献146

1徐佳,胡春鹤.分布式多经验池的无人机自主避碰方法[J].信息与控制,2023,52(4):432-443.
2杨峰,郑丽涛.一种面向弹道再入目标跟踪的HPD-SRCQSPF算法[J].宇航学报,2018,39(6):639-647. 被引量：2
3常晓飞,孙博,闫杰,符文星.针对高速机动目标的三维非线性微分对策制导律[J].弹道学报,2018,30(3):1-6. 被引量：5
4周觐,王华吉,赵炜,张大元,雷虎民.拦截高速目标的中制导次优弹道修正[J].北京理工大学学报,2019,39(8):839-845. 被引量：4
5张帅,郭杨,王仕成,王少博.考虑探测效能的有限时间协同制导方法[J].兵工学报,2019,40(9):1849-1859. 被引量：6
6张召,荆武兴,李君龙,高长生.谱估计理论在弹道数据参数化建模中的应用[J].宇航学报,2019,40(12):1453-1460. 被引量：2
7王少博,郭杨,王仕成,刘志国,张帅.带有引诱角色的多飞行器协同最优制导方法[J].航空学报,2020,41(2):283-297. 被引量：5
8乔浩,李师尧,李新国.多高超声速飞行器静态协同再入制导方法[J].宇航学报,2020,41(5):541-552. 被引量：13
9韩嘉俊,王小虎,郝昀,张后军.带有时间约束的再入滑翔轨迹设计[J].宇航学报,2020,41(4):438-446. 被引量：6
10李文,尚腾,姚寅伟,赵启伦.速度时变情况下多飞行器时间协同制导方法研究[J].兵工学报,2020,41(6):1096-1110. 被引量：11

同被引文献55

1郑成辰,李辉,陶伟,刘思成,吴冯国,何立.基于深度强化学习的导弹末端约束角制导律[J].战术导弹技术,2022(6):93-102. 被引量：1
2黎克波,廖选平,梁彦刚,李超勇,陈磊.基于纯比例导引的拦截碰撞角约束制导策略[J].航空学报,2020(S02):79-88. 被引量：15
3司玉洁,熊华,宋勋,宗睿.三维自适应终端滑模协同制导律[J].航空学报,2020(S01):99-109. 被引量：14
4Draguna VRABIE,Frank LEWIS.Adaptive dynamic programming for online solution of a zero-sum differential game[J].控制理论与应用（英文版）,2011,9(3):353-360. 被引量：10
5李士勇,杨丹.基于改进蚁群算法的巡航导弹航迹规划[J].宇航学报,2007,28(4):903-907. 被引量：22
6袁泉,赵秀娜,马宏绪,黄茜薇.一种改进的比例导引规律的设计与仿真[J].计算机仿真,2007,24(7):65-68. 被引量：3
7ZHANG Ping,FANG Yangwang,ZHANG Fengming,XIAO Bingsong,HU Shiguo,ZONG Shuning.An Adaptive Weighted Differential Game Guidance Law[J].Chinese Journal of Aeronautics,2012,25(5):739-746. 被引量：5
8孙胜,张华明,周荻.考虑自动驾驶仪动特性的终端角度约束滑模导引律[J].宇航学报,2013,34(1):69-78. 被引量：44
9谭浪,巩庆海,王会霞.基于深度强化学习的追逃博弈算法[J].航天控制,2018,36(6):3-8. 被引量：12
10YAO Peng,QI ShengBo.Obstacle-avoiding path planning for multiple autonomousunderwater vehicles with simultaneous arrival[J].Science China(Technological Sciences),2019,62(1):121-132. 被引量：7

引证文献8

1王琪,廖志忠.在线自适应动态规划计算智能博弈导引律[J].航天控制,2022,40(6):39-45. 被引量：1
2吴健发,魏春岭,张海博.航天器反应式碎片规避动作规划方法[J].宇航学报,2023,44(2):221-232. 被引量：6
3王晓芳,顾焜仁.一种深度强化学习与模仿学习结合的突防策略[J].宇航学报,2023,44(6):914-925. 被引量：2
4陈文雪,高长生,荆武兴.拦截机动目标的信赖域策略优化制导算法[J].航空学报,2023,44(11):277-295. 被引量：2
5郑鹤鸣,翟光,孙一勇.面向在轨加注的组合体姿态SAC智能控制[J].宇航学报,2023,44(7):1020-1033. 被引量：2
6康冰冰,姜涛,曹建,魏晓晴.基于强化学习的带落角约束的制导律研究[J].航空兵器,2023,30(6):44-49.
7王旭,蔡远利,张学成,张荣良,韩成龙.基于分层强化学习的低过载比拦截制导律[J].空天防御,2024,7(1):40-47.
8张青龙,赵斌,许新鹏.被动探测视场角约束下的深度强化学习制导方法[J].宇航学报,2024,45(8):1281-1289.

二级引证文献13

1吴健发,魏春岭,张海博,李克行,郝仁剑.基于深度强化学习的航天器多约束规避动作快速规划[J].空间控制技术与应用,2023,49(2):1-9. 被引量：4
2曲宗华,魏春岭.一种空间目标异动威胁评估的贝叶斯网络模型[J].航天控制,2023,41(4):67-76.
3康冰冰,姜涛,曹建,魏晓晴.基于强化学习的带落角约束的制导律研究[J].航空兵器,2023,30(6):44-49.
4赵弘骞,左宸昊,岳晓奎,肖余之,陈欢龙,代洪华.失效航天器非接触式消旋技术发展综述[J].宇航学报,2023,44(12):1797-1809.
5姜宇.双星碰撞产生的两团碎片云态势与演化[J].空间碎片研究,2023,23(4):36-45.
6周维庆,王飞,赵德京.基于双重限制Q学习的机器人控制方法[J].自动化与仪表,2024,39(3):61-65. 被引量：1
7陈文雪,胡玉东,高长生,荆武兴,安若铭.拦截高超声速滑翔飞行器:制导进展与展望[J].宇航学报,2024,45(6):799-814.
8杜德嵩,刘延芳,袁秋帆,赵福友,齐乃明.喷气驱动航天器姿态控制强化学习算法及实验[J].宇航学报,2024,45(6):903-913.
9卫长竖,赵斌,赵瑞,刘天泽.线偏差控制的协同机动突防、导引与控制一体化[J].宇航学报,2024,45(6):924-934.
10WANG Qi,LIAO Zhizhong.Computational intelligence interception guidance law using online off-policy integral reinforcement learning[J].Journal of Systems Engineering and Electronics,2024,35(4):1042-1052.

1李琳,张修社,韩春雷,马浩.基于卡尔曼滤波和DDQN算法的无人机机动目标跟踪[J].战术导弹技术,2022(2):98-104. 被引量：6
2范静宇,刘全.基于随机加权三重Q学习的异策略最大熵强化学习算法[J].计算机科学,2022,49(6):335-341. 被引量：2
3王二龙,李明非.重大变局之下的体育融媒传播效率呈现——以湖北日报东京奥运会融合报道为例[J].新闻前哨,2021(10):64-65.
4赵斌,梁乐成,蒋瑞民,周军.终端角度约束制导及制导控制一体化方法综述[J].宇航学报,2022,43(5):563-579. 被引量：14
5张志厚,石泽玉,马宁,王虎,乔中坤,赵思为,姚禹,赵明浩,叶志虎.瑞雷波频散曲线的深度学习反演方法[J].地球物理学报,2022,65(6):2244-2259. 被引量：4
6洪志理,赖俊,曹雷,陈希亮,徐志雄.基于遗憾探索的竞争网络强化学习智能推荐方法研究[J].计算机科学,2022,49(6):149-157. 被引量：1
7杜楚,黄泽锋,李小翠.面向边缘协作的动态服务配置与迁移机制研究[J].无线电工程,2022,52(6):953-960.
8璎.孔明灯[J].少儿国学,2022(10):34-35.
9林华,曾超,张海,江舸.基于RCCF-PCT的机动目标运动参数估计[J].太赫兹科学与电子信息学报,2022,20(5):464-469.
10罗锦彬.基于人工智能模型的自动容错跟踪控制研究[J].西安文理学院学报（自然科学版）,2022,25(2):33-37.

宇航学报

2022年第5期

浏览历史

内容加载中请稍等...

拦截大气层内机动目标的深度强化学习制导律被引量：8

参考文献10

二级参考文献91

共引文献146

同被引文献55

引证文献8

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

拦截大气层内机动目标的深度强化学习制导律 被引量：8

参考文献10

二级参考文献91

共引文献146

同被引文献55

引证文献8

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

拦截大气层内机动目标的深度强化学习制导律被引量：8