航天器姿态稳定强化学习鲁棒最优控制方法被引量：2

Reinforcement learning robust optimal control for spacecraft attitude stabilization

导出

摘要针对外部干扰力矩作用下的刚体航天器姿态稳定最优控制问题,提出了一种在线强化学习的智能鲁棒控制方法。该方法基于自适应动态规划框架,设计单Critic神经网络在线地学习无干扰作用的航天器的最优姿态控制律,并设计一种新的自适应律在线估计Critic神经网络的权值,实现了近似最优的控制性能。在学习的近似最优控制律的基础上,嵌入鲁棒控制量,形成鲁棒智能控制器,并应用Lyapunov理论证明了闭环姿态控制系统是一致最终有界稳定的,且Critic神经网络的权值估计误差是收敛的。相比于采用Actor-Critic神经网络结构的自适应动态规划方法,该方法一方面削弱了对持续激励条件的依赖,另一方面降低了计算复杂度,并保证了姿态稳定控制性能对外部干扰具有较强的鲁棒性。 The problem of optimal attitude stabilization control of rigid spacecraft despite external disturbances is in⁃vestigated.An online reinforcement learning-based intelligent and robust control approach is presented via the adap⁃tive dynamic programming technique.In this approach,a critic-only neural network is developed to learn the optimal control policy of the spacecraft attitude system with external disturbance.A new estimation law is synthesized to esti⁃mate the weights of that network online.The learned controller can achieve near-optimal control performance.Then,a robust control effort is designed and added into the learned controller to formulate an intelligent and robust controller.It is proven that the closed-loop attitude system obtained from the proposed controller is uniformly ultimately bounded and that the weight estimation error of the Critic NN is convergent by Lyapunov theory.Comparison with the traditional actor-critical neural network-based control schemes shows that with less computation complexity and great robustness to external disturbances,the proposed control approach is less dependent of the persistent excitation condition.Simu⁃lation results verify the superior control performance of the proposed approach.

作者肖冰张海朝 XIAO Bing;ZHANG Haichao(School of Automation,Northwestern Polytechnical University,Xi’an 710072,China)

机构地区西北工业大学自动化学院

出处《航空学报》 EI CAS CSCD 北大核心 2024年第1期51-65,共15页 Acta Aeronautica et Astronautica Sinica

关键词航天器姿态控制强化学习自适应动态规划外部干扰鲁棒性 spacecraft attitude control reinforcement learning adaptive dynamic programming external distur⁃bance robustness

分类号 V249.1 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献8

1Wei Huang,Wei Rong,Dahai Liu,Changhong Jiang,He Jia,Jinjin Bao,Jishou Fang.Design and Realization of Recovery System of Chang’e-5 Reentry Spacecraft[J].Space(Science & Technology),2021(1):133-142. 被引量：2
2Xiangyu Huang,Maodeng Li,Xiaolei Wang,Jinchang Hu,Yu Zhao,Minwen Guo,Chao Xu,Wangwang Liu,Yunpeng Wang,Ce Hao,Lijia Xu.The Tianwen-1 Guidance, Navigation, and Control for Mars Entry, Descent, and Landing[J].Space(Science & Technology),2021(1):84-96. 被引量：9
3Jianfei Li,Yaobing Wang,Zhiyong Liu,Xin Jing,Chengwei Hu.A New Recursive Composite Adaptive Controller for Robot Manipulators[J].Space(Science & Technology),2021(1):77-83. 被引量：3
4马广富,朱庆华,王鹏宇,郭延宁.基于终端滑模的航天器自适应预设性能姿态跟踪控制[J].航空学报,2018,39(6):136-146. 被引量：27
5朱庆华,董瑞琦,马广富.基于动态滑模控制的挠性航天器姿态控制[J].控制理论与应用,2018,35(10):1430-1435. 被引量：14
6张士峰,钱山,李鹏奎.刚体航天器的最小能量姿态机动最优控制研究[J].宇航学报,2009,30(4):1504-1509. 被引量：5
7梁小辉,胡昌华,周志杰,王青.基于自适应动态规划的运载火箭智能姿态容错控制[J].航空学报,2021,42(4):505-518. 被引量：12
8张国山,胡伟,郝君.基于离策略和扰动补偿的未知非线性系统最优控制[J].吉林大学学报（工学版）,2022,52(5):1145-1152. 被引量：1

二级参考文献54

1邵书义,陈谋,招启军.基于干扰观测器的四旋翼无人机离散时间容错控制[J].航空学报,2020(S02):89-97. 被引量：5
2童旭东,李惠康,葛玉君,高树义.神舟号载人飞船回收着陆分系统设计与性能评估[J].航天返回与遥感,2004,25(3):1-6. 被引量：16
3霍伟,高为炳,程勉.一种新的机器人模型及其控制算法[J].自动化学报,1994,20(3):278-285. 被引量：2
4Li F,Bainum P M.Numerical approach for solving rigid spacecraft minimum time attitude maneuvers[J].Guidance Control Dyn,1994,13(1):38-45.
5Junkins J L,Turner J D.Optimal continuous torque attitude ma-neuvers[J].Guidance Control Dyn,1980,3(3):210 -217.
6Vadali S R,Junkins J L.Optimal open-loop and stable feedback control of rigid spacecraft attitude maneuvers[J].Astronaut.Sc,1984,32:105-122.
7Vadali S R,Junkins J L.Spacecraft large angle rotational maneuvers with optimal momentum transfer[J].Astronaut.Sci,1983,31; 217 -235.
8Dixon M V,Edelbaum T,Potter J E,Vandervelde W E.Fueloptimal reorientation of axis symmetric spacecraft[J].Spacecr,1970,7:1345 -1351.
9Scrivener S L,Thomson R C.Survey of time-optimal attitude maneuvers[J].Guidance Control Dyn,1994,17 (2):225 -233.
10Vadali S R,Kraige L G,Junkins J L.New results on the optimal spacecraft attitude maneuver problem[J].Guidance Control Dyn,1984,7(3):378-380.

共引文献64

1宋季强,张爱华,杨凌耀.基于动态滑模的微定位平台轨迹跟踪控制[J].上海工程技术大学学报,2022,36(3):261-266.
2Qi HONG,Yaoyao SHI,Danni LU.Dynamics modeling and pressure control of composites tape winding system based on LQSMC[J].Chinese Journal of Aeronautics,2020,33(2):740-748. 被引量：1
3李帅聪,何睿智,汤国建,敖鹏.基于滑模控制的剖面跟踪制导律[J].航空学报,2020(S02):240-247. 被引量：3
4杨旦旦,岳宝增.一类带柔性附件充液航天器姿态机动控制[J].力学学报,2012,44(2):415-424. 被引量：3
5李冬柏,吴宝林,张迎春.考虑未知飞轮摩擦力矩的航天器姿态跟踪鲁棒自适应控制[J].宇航学报,2016,37(2):175-181. 被引量：10
6魏才盛,罗建军,殷泽阳.航天器姿态预设性能控制方法综述[J].宇航学报,2019,40(10):1167-1176. 被引量：20
7谢方圆,张爱民.基于干扰观测器的受扰卫星姿态控制器设计与优化[J].航天控制,2019,37(5):31-39. 被引量：5
8操宏磊,朱庆华,孙建党,于常利.大型挠性结构航天器姿态精确指向控制[J].飞控与探测,2019,2(5):17-24. 被引量：2
9卢燕梅,宗群,张秀云,鲁瀚辰,张睿隆.集群无人机队形重构及虚拟仿真验证[J].航空学报,2020,41(4):243-254. 被引量：9
10代明光,齐蓉.基于扩展状态观测器的电动负载模拟器反演滑模控制[J].航空学报,2020,41(5):275-285. 被引量：13

同被引文献22

1王峰,陈雪芹,张世杰,曹喜滨.基于改进PEA的日地L2平动点编队飞行高精度位置保持[J].宇航学报,2011,32(5):982-990. 被引量：3
2周健,龚春林,粟华,谷良贤.复杂约束下的编队姿态有限时间协同控制方法[J].宇航学报,2018,39(12):1340-1347. 被引量：18
3魏凤美,赵育善,师鹏.挠性航天器姿态机动的变论域自整定模糊PID控制[J].中国空间科学技术,2014,34(6):1-7. 被引量：11
4刘敏,杨军,李学林,徐世杰.挠性航天器退步自适应姿态机动及主动振动控制[J].空间控制技术与应用,2015,41(1):9-14. 被引量：5
5杨欢,熊剑,郭杭,衷卫声.基于Cortex-M4的多传感器组合导航系统设计[J].传感器与微系统,2017,36(2):88-90. 被引量：7
6马广富,朱庆华,王鹏宇,郭延宁.基于终端滑模的航天器自适应预设性能姿态跟踪控制[J].航空学报,2018,39(6):136-146. 被引量：27
7黄静,孙禄君,孙俊,刘刚.基于预设性能控制的超紧密航天器编队防避撞协同控制[J].飞控与探测,2019,2(3):52-60. 被引量：6
8冯金富,胡俊华,齐铎.水空跨介质航行器发展需求及其关键技术[J].空军工程大学学报（自然科学版）,2019,20(3):8-13. 被引量：26
9魏才盛,罗建军,殷泽阳.航天器姿态预设性能控制方法综述[J].宇航学报,2019,40(10):1167-1176. 被引量：20
10宋锡文,董业鹏,杨世飞.基于FPGA的振动信号处理参数寻优试验研究[J].电子测量与仪器学报,2021,35(2):101-108. 被引量：14

引证文献2

1李存健,刘福朝,刘宁,赵辉,周浩.跨域飞行器惯导装置设计及抗冲击测量方法[J].电子测量技术,2024,47(5):167-172.
2朱金钊,张志广,魏才盛.多航天器系统分布式姿态协同预设性能控制[J].飞控与探测,2024,7(4):43-53.

1谭旭峰,李媛,刘洋.基于自适应动态规划的随机时滞线性二次型最优跟踪控制[J].系统科学与数学,2024,44(1):17-30.
2张永红.高校思政理论课堂与网络在线融合式教育研究[J].淮南职业技术学院学报,2023,23(6):26-28.
3武晓晶,韩欣芮,吴学礼,罗小元,邵士凯.动力学参数未知的四旋翼无人机预定性能控制[J].北京航空航天大学学报,2023,49(10):2587-2595.
4宋秋雨,胡健,姚建勇,白艳春,杨正银.面向输出约束基于神经网络观测器的发射平台输出反馈控制[J].兵工学报,2023,44(7):2184-2196. 被引量：1
5马幼捷,杨清,周雪松,王博,王福森,王馨悦.基于级联型扩张状态观测器的直流微电网低压负载接口变换器自抗扰稳压研究[J].电力系统保护与控制,2024,52(4):121-132.
6李思博,臧兆祥,吕相霖.一种基于双经验池优先采样的深度强化学习算法[J].长江信息通信,2023,36(11):73-76.
7胡诚伟,韦悠,汪学平.考虑落角约束和气动不确定性的固定时间制导控制一体化设计方法[J].弹箭与制导学报,2023,43(4):98-104.
8谷平维,段彬,康永哲,张承慧,杜春水.基于随机充电数据的锂离子电池容量在线估计[J].机械工程学报,2023,59(22):100-110. 被引量：1
9秦天为,冯云剑.基于Actor-Critic自适应PID的钢筋套丝头跟踪检测控制系统研究[J].工业控制计算机,2024,37(2):75-77.
10张柄汉,王琛,彭兆涛,张夷斋,张帆.一种面向空间非合作目标的强化学习多臂协同俘获策略研究[J].宇航学报,2023,44(12):1934-1943. 被引量：1

航空学报

2024年第1期

浏览历史

内容加载中请稍等...

航天器姿态稳定强化学习鲁棒最优控制方法被引量：2

参考文献8

二级参考文献54

共引文献64

同被引文献22

引证文献2

相关作者

相关机构

相关主题

浏览历史

航天器姿态稳定强化学习鲁棒最优控制方法 被引量：2

参考文献8

二级参考文献54

共引文献64

同被引文献22

引证文献2

相关作者

相关机构

相关主题

浏览历史

航天器姿态稳定强化学习鲁棒最优控制方法被引量：2