基于强化学习的可回收运载火箭着陆制导被引量：2

Landing Guidance of Reusable Launch Vehicle Based on Reinforcement Learning

下载PDF

导出

摘要可回收运载火箭的着陆制导需要严格保证着陆位置、速度精度,并尽量减小燃料消耗。基于最优控制的着陆制导方法需要依赖火箭精确模型,不具有对模型偏差的泛化能力。针对此问题,本文基于强化学习方法,通过不基于模型的交互采样,训练了神经网络形式的火箭着陆制导策略。首先,建立火箭着陆制导问题的马尔可夫决策过程模型,根据终端约束和燃料消耗指标设计了分阶段奖励函数;然后,在此基础上设计了多层感知机制导策略网络,并使用不基于模型的邻近策略优化算法,通过与火箭着陆制导马尔可夫决策过程的交互采样,实现对制导策略网络的迭代优化;最后,在可回收运载火箭着陆段仿真场景下对制导策略进行验证。仿真结果表明,本文提出的强化学习着陆制导策略能够保证火箭的着陆精度、燃料消耗与最优解相近,且能够泛化至火箭模型参数存在偏差的工况。 Landing guidance for reusable launch vehicle should ensure the accuracy of landing position and velocity as well as minimized fuel consumption.Landing guidance methods based on optimal control is based on accurate rocket dy⁃namic model,which corrupts the scalability of guidance methods.To address this problem,a neural network landing guidance policy is developed based on model-free iterative reinforcement learning approach.First,a Markov decision process model of the rocket landing guidance problem is established,and a staged reward function is designed according to the terminal constraints and fuel consumption index;Further,a multilayer perceptron guidance policy network is de⁃veloped,and a model-free proximal policy optimization algorithm is adopted to achieve iterative optimization of the guidance policy network through interaction with the rocket landing guidance Markov decision process;Finally,the guidance policy is validated under simulations of a reusable launch vehicle landing scenario.The results show that the proposed reinforcement learning landing guidance policy can achieve high landing accuracy,near optimal fuel consump⁃tion,and adaptivity to parameter uncertainty of the rocket model.

作者何林坤张冉龚庆海 HE Linkun;ZHANG Ran;GONG Qinghai(School of Astronautics,Beihang University,Beijing 100191,China;Beijing Aerospace Automatic Control Institute,Beijing 100070,China)

机构地区北京航空航天大学宇航学院北京航天自动控制研究所

出处《空天防御》 2021年第3期33-40,共8页 Air & Space Defense

关键词着陆制导可回收运载火箭最优控制强化学习垂直回收 landing guidance reusable launch vehicle optimal control reinforcement learning vertical recycling

分类号 V475.1 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献3

1BAO Weimin,WANG Xiaowei.发展高可靠低成本进出空间技术,迎接太空经济时代[J].Aerospace China,2019,0(4):23-30. 被引量：15
2包为民,汪小卫.航班化航天运输系统发展展望[J].宇航总体技术,2021(3):1-6. 被引量：20
3Xinfu Liu,Ping Lu,Binfeng Pan.Survey of convex optimization for aerospace applications[J].Astrodynamics,2017,1(1):23-40. 被引量：35

二级参考文献7

1BAO Weimin,WANG Xiaowei.发展高可靠低成本进出空间技术,迎接太空经济时代[J].Aerospace China,2019,0(4):23-30. 被引量：15
2吴燕生.中国航天运输系统的发展与未来[J].导弹与航天运载技术,2007(5):1-4. 被引量：32
3鲁宇,蔡巧言,王飞.临近空间与重复使用技术研究[J].导弹与航天运载技术,2018(3):1-9. 被引量：19
4王辰,王小军,张宏剑,张希,王江,季宝锋.可重复使用运载火箭发展研究[J].飞航导弹,2018(9):18-26. 被引量：31
5鲁宇,汪小卫,高朝辉,申麟,庄方方.重复使用运载火箭技术进展与展望[J].导弹与航天运载技术,2017(5):1-7. 被引量：35
6王小军.中国航天运输系统未来发展展望[J].导弹与航天运载技术,2021(1):1-6. 被引量：33
7李洪.智慧火箭发展路线思考[J].宇航总体技术,2017,1(1):1-7. 被引量：54

共引文献65

1包为民,汪小卫.航班化航天运输系统发展展望[J].宇航总体技术,2021(3):1-6. 被引量：20
2宋征宇,王聪.运载火箭返回着陆在线轨迹规划技术发展[J].宇航总体技术,2019,0(6):1-12. 被引量：19
3宋征宇,黄兵,汪小卫,张宏剑,王聪,庄方方.重复使用航天运载器的发展及其关键技术[J].前瞻科技,2022(1):62-74. 被引量：18
4李东,李平岐.中国航天运输系统发展及未来趋势展望[J].前瞻科技,2022(1):51-61. 被引量：7
5Wei DONG,Qiuqiu WEN,Qunli XIA,Shengjiang YANG.Multiple-constraint cooperative guidance based on two-stage sequential convex programming[J].Chinese Journal of Aeronautics,2020,33(1):296-307. 被引量：11
6金小千.原发性输尿管癌12例报告[J].实用癌症杂志,2000,15(1):36-36.
7刘延杰,朱圣英,崔平远.序列凸优化的小天体附着轨迹优化[J].宇航学报,2018,29(2):177-183. 被引量：16
8宋征宇,王聪,巩庆海.运载火箭上升段推力下降故障的自主轨迹规划方法[J].中国科学：信息科学,2019,49(11):1472-1487. 被引量：30
9E ZhiBo,GUZZETTI Davide.Multi-revolution low-thrust trajectory optimization using symplectic methods[J].Science China(Technological Sciences),2020,63(3):506-519. 被引量：4
10刘洁,董献洲,韩维,王昕炜,刘纯,贾珺.采用牛顿迭代保辛伪谱算法的舰载机甲板路径规划[J].浙江大学学报（工学版）,2020,54(9):1827-1838. 被引量：8

同被引文献27

1李璟澜,杨秦敏.带预设性能的火箭垂直着陆段姿态自适应控制设计[J].宇航总体技术,2020(5):1-7. 被引量：1
2宋征宇,王聪.运载火箭返回着陆在线轨迹规划技术发展[J].宇航总体技术,2019,0(6):1-12. 被引量：19
3韩京清.自抗扰控制技术[J].前沿科学,2007,1(1):24-31. 被引量：456
4朱建丰,徐世杰.月球重力转弯软着陆的模糊变结构控制[J].北京航空航天大学学报,2007,33(5):539-543. 被引量：5
5舒燕军,唐硕.轨控式复合控制导弹制导与控制一体化反步设计[J].宇航学报,2013,34(1):79-85. 被引量：25
6果琳丽,谷良贤,田林,王平,侯砚泽.载人月面着陆器动力下降段自适应姿态控制[J].哈尔滨工业大学学报,2013,45(5):119-123. 被引量：3
7董飞垚,雷虎民,周池军,李炯,邵雷.导弹鲁棒高阶滑模制导控制一体化研究[J].航空学报,2013,34(9):2212-2218. 被引量：28
8薛文超,黄朝东,黄一.飞行制导控制一体化设计方法综述[J].控制理论与应用,2013,30(12):1511-1520. 被引量：55
9王大轶,李铁寿,严辉,马兴瑞.月球引力转弯软着陆的制导控制研究[J].中国空间科学技术,2000,20(5):17-23. 被引量：7
10张洪华,关轶峰,黄翔宇,李骥,赵宇,于萍,张晓文,杨巍,梁俊,王大轶.嫦娥三号着陆器动力下降的制导导航与控制[J].中国科学：技术科学,2014,44(4):377-384. 被引量：44

引证文献2

1尹超.基于视觉导航与强化学习的可重复使用火箭垂直降落控制策略研究[J].无线互联科技,2023,20(7):141-143.
2何林坤,薛文超,张冉,李惠峰.运载火箭动力着陆段制导控制方法综述与展望[J].航空学报,2023,44(23):51-76.

1月度热点[J].科学家,2019,0(10):10-13.
2王福臣,潘北斗,田继勋.测绘技术在地质勘查中的应用[J].世界有色金属,2021,46(9):129-130. 被引量：2
3王川坤,曾亚琦,孟军,王建文,孔麒森,姚新奎,杨曦曦,杨利平,冉立杰,杰苏尔·吐尔洪江.不同水平障碍赛马越障步态特征[J].新疆农业科学,2020,57(2):384-392. 被引量：2
4贾昊男,陈若卉,滕百军,张曦宇,曹译尹,赵洁,Omar Yacouba Ismael,焦明丽.行为经济学视角下农村居民自我医疗药品购买决策过程探析[J].中国卫生经济,2021,40(7):21-23. 被引量：2
5陈壮壮,罗莉华.网联自动驾驶车辆通过信号交叉口的速度轨迹优化[J].交通信息与安全,2021,39(4):92-98. 被引量：10
6李仲兴,宋鑫炎,刘晨来,薛红涛.轮毂电机驱动汽车半主动悬架自适应最优控制[J].重庆理工大学学报（自然科学）,2021,35(8):25-32. 被引量：3
7刘坤鹏.淮北界沟煤矿灰岩水害地面区域治理钻井设计优化[J].中国煤炭地质,2020,32(10):60-64. 被引量：6
8无.“三度”并重确保批示件办理规范有序[J].秘书工作,2021(6):15-17. 被引量：1
9王铮,邢晓露,闫天,郭行.高超声速飞行器突防制导的发展现状与未来发展方向[J].飞航导弹,2021(7):18-24. 被引量：6
10张帆,宫傲宇,邓磊,刘芳,林艳,张一晋.面向实际信道观测环境的时限约束无线下行调度策略[J].计算机科学,2021,48(9):264-270.

空天防御

2021年第3期

浏览历史

内容加载中请稍等...

基于强化学习的可回收运载火箭着陆制导被引量：2

参考文献3

二级参考文献7

共引文献65

同被引文献27

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于强化学习的可回收运载火箭着陆制导 被引量：2

参考文献3

二级参考文献7

共引文献65

同被引文献27

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于强化学习的可回收运载火箭着陆制导被引量：2