-
题名基于PPO2的航天控制器序列决策制导算法设计
- 1
-
-
作者
杨可
翟依婷
朱志
肖梦旭
董莉
-
机构
湖南工商大学计算机学院
-
出处
《软件》
2023年第7期5-12,65,共9页
-
基金
湖南省大学生创新创业训练计划项目(S200210554045)
教育部产学合作协同育人项目(202102211072)。
-
文摘
运载火箭的制导回收实现对于航天发展具有重大意义,在火箭回收任务中对回收精确制导、实时低时延的计算能力有高标准,传统回收方法在解决该问题上表现出了一定的缺陷和局限性。本文对控制过程进行马尔可夫决策建模,通过构造PPO2算法框架对整个回收过程进行实时求解,采用复合型奖励函数对位置、姿态、着陆阈值和燃料消耗进行相应约束,并对其进行训练。实验表明,基于PPO2算法的回收制导模型可以较好地满足各项约束条件,并实现推力切换最优策略,证明了PPO2算法在处理该问题时可兼顾实时性和控制效果的优化性,对不同初始参数火箭型号和带有扰动的环境偏差均表现出较强的适应能力,具有一定的泛化能力。
-
关键词
深度强化学习
PPO2算法
决策制导
-
Keywords
deep reinforcement learning
PPO2 algorithm
decision guidance
-
分类号
TP39
[自动化与计算机技术—计算机应用技术]
-