-
题名基于安全强化学习的航天器交会制导方法
被引量:1
- 1
-
-
作者
幸林泉
肖应民
杨志斌
韦正旻
周勇
高赛军
-
机构
南京航空航天大学计算机科学与技术学院
高安全系统的软件开发与验证技术工信部重点实验室
上海航天电子技术研究所
-
出处
《计算机科学》
CSCD
北大核心
2023年第8期271-279,共9页
-
基金
国家自然科学基金(62072233)
国防基础科学研究计划(JCKY2020205C006)
南京航空航天大学科研与实践创新计划(xcxjh20211604)。
-
文摘
随着航天器交会对接任务越来越复杂,对其高效性、自主性和安全性的要求急剧增加。近年来,引入强化学习技术来解决航天器交会制导问题已经成为国际前沿热点。障碍物避撞对于确保航天器安全交会对接至关重要,而一般的强化学习算法没有对探索空间进行安全限制,这使得航天器交会制导策略设计面临挑战。为此,提出了基于安全强化学习的航天器交会制导方法。首先,设计避撞场景下航天器自主交会的马尔可夫模型,提出基于障碍预警与避撞约束的奖励机制,从而建立用于求解航天器交会制导策略的安全强化学习框架;其次,在该安全强化学习框架下,基于近端策略优化算法(PPO)和深度确定性策略梯度算法(DDPG)这两种深度强化学习算法生成了制导策略。实验结果表明,该方法能有效地进行障碍物避撞并以较高的精度完成交会。另外,通过分析两种算法的性能优劣和泛化能力,进一步证明了所提方法的有效性。
-
关键词
航天器交会制导
障碍物避撞
安全强化学习
近端策略优化
深度确定性策略梯度
-
Keywords
Spacecraft rendezvous guidance
Obstacle avoidance
Safe reinforcement learning
Proximal policy optimization
Deep deterministic policy gradient
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-