基于机器学习的航天器规避目标威胁博弈决策

Spacecraft game decision making for threat avoidance of space targets based on machine learning

导出

摘要针对航天器规避空间目标抵近威胁的决策问题,提出了一种智能决策框架和基于深度强化学习的自主决策方法。考虑到空间目标的机动特性和威胁规避的博弈性,基于感知-判断-决策-执行(OODA)环决策思想和机器学习方法,提出了一种航天器威胁规避智能博弈决策框架。基于该框架和对空间目标运动意图的推理,为了使航天器决策控制具备博弈应对能力,设计了基于深度强化学习的航天器机动决策算法和训练环境,实现了对空间目标典型运动意图的规避应对;进一步地,采用自我博弈学习训练提升航天器自主机动决策算法的泛化性和应对目标不确定机动的适应能力。最后,通过算例仿真及分析,验证了所提方法的有效性。 An intelligent decision-making framework and a deep reinforcement learning-based autonomous decisionmaking method are proposed for the spacecraft decision-making in avoiding the threat of space targets.Taking into account the maneuvering characteristics of space targets and the gameplay of threat avoidance,an intelligent game decision-making framework for spacecraft threat avoidance is proposed based on the Observation-Orientation-DecisionAction(OODA)loop decision-making idea and machine learning techniques.Based on this framework and inference on the motion intentions of space targets,a deep reinforcement learning-based spacecraft maneuver decision-making algorithm and training environment are designed to enable spacecraft decision-making control with game response capability,which realizes the avoidance response to the typical motion intentions of space targets.Furthermore,the generalization of spacecraft autonomous maneuvering decision-making algorithm and its adaptability to possible uncertain maneuvers of space targets are improved by using the self-play learning technique.Finally,the effectiveness of our proposed method is verified through simulations.

作者张鸿林罗建军马卫华 ZHANG Honglin;LUO Jianjun;MA Weihua(School of Astronautics,Northwestern Polytechnical University,Xi'an 710072,China;Science and Technology on Aerospace Flight Dynamics Laboratory,Xi'an 710072,China)

机构地区西北工业大学航天学院航天飞行动力学技术重点实验室

出处《航空学报》 EI CAS CSCD 北大核心 2024年第8期244-259,共16页 Acta Aeronautica et Astronautica Sinica

基金国家自然科学基金(12072269) 航天飞行动力学技术重点实验室基金(6142210210302)。

关键词航天器机动智能决策威胁规避 OODA环深度强化学习 spacecraft maneuver intelligent decision-making threat avoidance OODA loop deep reinforcement learning

分类号 V448.2 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献7

1袁利,姜甜甜.航天器威胁规避智能自主控制技术研究综述[J].自动化学报,2023,49(2):229-245. 被引量：6
2袁利.面向不确定环境的航天器智能自主控制技术[J].宇航学报,2021,42(7):839-849. 被引量：18
3王杰,丁达理,董康生,库硕.UCAV自主空战战术机动动作建模与轨迹生成[J].火力与指挥控制,2018,43(12):42-49. 被引量：4
4黎飞,雷拥军,冯佳佳.一种GEO卫星太阳光遮挡轨迹设计与控制方法[J].宇航学报,2022,43(2):198-205. 被引量：1
5赵毓,郭继峰,颜鹏,白成超.稀疏奖励下多航天器规避决策自学习仿真[J].系统仿真学报,2021,33(8):1766-1774. 被引量：5
6刘冰雁,叶雄兵,高勇,王新波,倪蕾.基于分支深度强化学习的非合作目标追逃博弈策略求解[J].航空学报,2020,41(10):343-353. 被引量：14
7于大腾,王华,孙福煜.考虑潜在威胁区的航天器最优规避机动策略[J].航空学报,2017,38(1):281-289. 被引量：11

二级参考文献102

1柴源,罗建军,王明明,韩楠.基于追逃博弈的非合作目标接近控制[J].宇航总体技术,2020,0(1):30-38. 被引量：3
2杨彪,荆武兴,李涧青,高长生.动能拦截器运动伪装末制导律设计[J].宇航学报,2020,41(1):91-100. 被引量：6
3王宇奇,林麒,王晓光,周凡桂,刘骏.基于RBF神经网络补偿的一种绳牵引并联机器人支撑系统的力/位混合控制[J].控制与决策,2020,35(3):536-546. 被引量：2
4陆晓飞,孟红波,梅发国.从美军“施里弗”系列演习看太空作战趋势[J].中国电子科学研究院学报,2020,15(2):110-114. 被引量：4
5魏春岭,袁泉,张军,王梦菲.空间多体系统轨道姿态及机械臂一体化控制[J].北京航空航天大学学报,2020,46(2):252-258. 被引量：6
6罗建军,周文勇,袁建平.卫星快速绕飞轨迹设计与制导[J].宇航学报,2007,28(3):628-632. 被引量：6
7王华,李海阳,唐国金.基于碰撞概率的交会对接最优碰撞规避机动[J].宇航学报,2008,29(1):220-223. 被引量：20
8邹小兵,蔡自兴,于金霞.基于异构Agent的移动机器人体系结构设计[J].中南大学学报（自然科学版）,2005,36(5):733-738. 被引量：2
9汪民乐.战略导弹突防仿真模型[J].系统工程与电子技术,1996,18(10):53-58. 被引量：7
10常燕,周军.空间飞行器追踪区设计[J].宇航学报,2006,27(6):1228-1232. 被引量：14

共引文献45

1杨森,张翔伦.基于能量优化的无人机机动轨迹生成方法[J].航空学报,2020(S02):122-128.
2刘金星,赵冬梅,高劲松.赛博空间战术机动的要素分析[J].电光与控制,2018,25(9):1-6. 被引量：1
3孙冲,袁建平,万文娅,崔尧.自由翻滚故障卫星外包络抓捕及抓捕路径优化[J].航空学报,2018,39(11):140-151. 被引量：6
4刘将辉,李海阳,陆林,赵剑.逼近无控旋转目标航天器的混合势函数安全制导[J].航空学报,2019,40(10):179-191.
5刘冰雁,叶雄兵,岳智宏,董献洲,张其扬.基于多组并行深度Q网络的连续空间追逃博弈算法[J].兵工学报,2021,42(3):663-672. 被引量：3
6刘冰雁,叶雄兵,方胜良,刘怀兴,贾珺.基于Frenet和改进人工势场的在轨规避路径自主规划[J].北京航空航天大学学报,2021,47(4):731-741. 被引量：9
7袁利.面向不确定环境的航天器智能自主控制技术[J].宇航学报,2021,42(7):839-849. 被引量：18
8张震.基于深度强化学习的自动驾驶仪控制软件设计[J].自动化与仪器仪表,2021(10):53-56.
9黄岩毅,陈国栋.电子对抗条件下空战综合优势评估模型[J].火力与指挥控制,2021,46(11):118-123. 被引量：1
10张哲,代洪华,冯浩阳,汪雪川,岳晓奎.初值约束与两点边值约束轨道动力学方程的快速数值计算方法[J].力学学报,2022,54(2):503-516. 被引量：4

1周逸萌.大数据时代背景下现代教育模式的创新探析[J].时代人物,2024(11):73-75.
2倪世容.浅析博弈论在经济生活中的应用[J].中国地名,2023(1):38-40.
3章豪,李昱辉,刘晟,付裕晖,杨贤德.联合态势下无人机自主任务决策设计[J].航空电子技术,2024,55(1):42-49.
4张赛,杨震,杜向南,罗亚中.基于轨道可达域的机动航天器接近威胁规避方法[J].航空学报,2024,45(4):242-255.
5廖银燕.考虑消费者感知效用的平台电商定价与返利策略研究[J].商业经济研究,2024(10):113-117.
6姬利源,曲大义,戴守晨,崔善柠,李奥迪,魏传宝.网联自主车辆协作换道行为博弈特性及模型[J].广西大学学报（自然科学版）,2024,49(1):123-131.
7刘丙勋.统计与概率中的决策问题[J].中学生数理化（高二数学、高考数学）,2024(10):22-25.
8乔冠华.基于机器学习链路权重优化的无人机网络路由算法[J].重庆邮电大学学报（自然科学版）,2024,36(2):277-286.
9陈起行,张俊杰.国有企业数据资产特征及合规管理改进[J].大数据,2024,10(2):68-79.
10单镇杰,黄海玲,林强,何伟雄,陈柏亦.平台竞争商家的返利促销策略[J].系统工程,2023,41(3):83-93. 被引量：1

航空学报

2024年第8期

浏览历史

内容加载中请稍等...

基于机器学习的航天器规避目标威胁博弈决策

参考文献7

二级参考文献102

共引文献45

相关作者

相关机构

相关主题

浏览历史