期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

基于自适应增强随机搜索的航天器追逃博弈策略研究

Research on game strategy of spacecraft chase and escape based on adaptive augmented random search

下载PDF

导出

摘要针对航天器与非合作目标追逃博弈的生存型微分对策拦截问题,基于强化学习研究了追逃博弈策略,提出了自适应增强随机搜索(adaptive-augmented random search,A-ARS)算法。针对序贯决策的稀疏奖励难题,设计了基于策略参数空间扰动的探索方法,加快策略收敛速度;针对可能过早陷入局部最优问题设计了新颖度函数并引导策略更新,可提升数据利用效率;通过数值仿真验证并与增强随机搜索(augmented random search,ARS)、近端策略优化算法(proximal policy optimization,PPO)以及深度确定性策略梯度下降算法(deep deterministic policy gradient,DDPG)进行对比,验证了此方法的有效性和先进性。 To solve the problem of the survival differential policy interception between a spacecraft and a non-cooperative target pursuit game,the pursuit game policy is studied based on reinforcement learning,and the adaptive-augmented random search algorithm is proposed.Firstly,to solve the sparse reward problem of sequential decision making,an exploration method based on the spatial perturbation of parameters of the policy is designed,thus accelerating its convergence speed.Secondly,to avoid the possibility of falling into local optimum prematurely,a novelty degree function is designed to guide the policy update,enhancing the efficiency of data utilization.Finally,the effectiveness and advancement of the exploration method are verified with numerical simulations and compared with those of the augmented random search algorithm,the proximal policy optimization algorithm and the deep deterministic policy gradient algorithm.

作者焦杰苟永杰吴文博泮斌峰 JIAO Jie;GOU Yongjie;WU Wenbo;PAN Binfeng(School of Astronautics,Northwestern Polytechnical University,Xi′an 710072,China;National Key Laboratory of Aerospace Flight Dynamics,Xi′an 710072,China;Shanghai Aerospace Systems Engineering Institute,Shanghai 201108,China)

机构地区西北工业大学航天学院航天飞行动力学技术国家级重点实验室上海宇航系统工程研究所

出处《西北工业大学学报》 EI CAS CSCD 北大核心 2024年第1期117-128,共12页 Journal of Northwestern Polytechnical University

关键词非合作目标追逃博弈微分对策强化学习稀疏奖励 non-cooperative target pursuit game differential game theory reinforcement learning sparse reward

分类号 V448.2 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献6

1罗亚中,李振瑜,祝海.航天器轨道追逃微分对策研究综述[J].中国科学：技术科学,2020,50(12):1533-1545. 被引量：17
2于大腾,王华,周晚萌.考虑空间几何关系的反交会规避机动方法[J].国防科技大学学报,2016,38(6):89-94. 被引量：6
3朱强,邵之江.基于神经网络的实时滚动追逃博弈导弹制导律[J].系统工程与电子技术,2019,41(7):1597-1605. 被引量：6
4曹雷.基于深度强化学习的智能博弈对抗关键技术[J].指挥信息系统与技术,2019,10(5):1-7. 被引量：44
5刘冰雁,叶雄兵,高勇,王新波,倪蕾.基于分支深度强化学习的非合作目标追逃博弈策略求解[J].航空学报,2020,41(10):343-353. 被引量：15
6吴其昌,张洪波.基于生存型微分对策的航天器追逃策略及数值求解[J].控制与信息技术,2019,0(4):39-43. 被引量：6

二级参考文献30

1柴源,罗建军,王明明,韩楠.基于追逃博弈的非合作目标接近控制[J].宇航总体技术,2020,0(1):30-38. 被引量：3
2王华,李海阳,唐国金.基于碰撞概率的交会对接最优碰撞规避机动[J].宇航学报,2008,29(1):220-223. 被引量：20
3雍恩米,陈磊,唐国金.飞行器轨迹优化数值方法综述[J].宇航学报,2008,29(2):397-406. 被引量：125
4高永,向锦武.多目标火力分配的系统动力学模拟[J].系统仿真学报,2006,18(z2):120-121. 被引量：5
5张秋华,赵小津,孙毅.空间飞行器在视线坐标系中的追逃界栅[J].航天控制,2007,25(1):26-30. 被引量：8
6张秋华,孙毅,黄明明,段广仁.近地共面轨道上两飞行器在径向连续小推力下的追逃界栅[J].控制与决策,2007,22(5):530-534. 被引量：14
7李九人,李海阳,唐国金,罗亚中.基于仅测角的自主交会相对导航策略研究[J].中国科学：技术科学,2011,41(9):1197-1204. 被引量：9
8于大腾,王华,尤岳,白显宗.不完备轨道信息下的LEO轨道面内机动检测方法[J].宇航学报,2013,34(3):314-319. 被引量：7
9肖亮,黄俊,徐钟书.基于神经网络的超视距空战协同攻击决策[J].沈阳工业大学学报,2013,35(3):338-344. 被引量：3
10张秋华,孙松涛,谌颖,孙毅.时间固定的两航天器追逃策略及数值求解[J].宇航学报,2014,35(5):537-544. 被引量：16

共引文献79

1王雨琪,宁国栋,王晓峰,郝明瑞,王江华.基于微分对策的临近空间飞行器机动突防策略[J].航空学报,2020(S02):69-78. 被引量：14
2杨静,代盛旭,周浪雅,吴可.城市轨道交通相邻多车站动态协同限流研究[J].铁道运输与经济,2020,42(3):112-118. 被引量：8
3刘祥,雷镜民,尚雷.战役级智能体训练系统[J].指挥信息系统与技术,2020,11(3):49-54. 被引量：2
4王欣,邱雪,刘旭.带落角约束的大机动目标末制导律研究[J].沈阳理工大学学报,2020,39(3):76-82.
5刘冰雁,叶雄兵,高勇,王新波,倪蕾.基于分支深度强化学习的非合作目标追逃博弈策略求解[J].航空学报,2020,41(10):343-353. 被引量：15
6李皓皓,张进,罗亚中.基于机动目标滤波估计的航天器主动规避策略[J].力学学报,2020,52(6):1560-1568. 被引量：5
7曾隽芳,牟佳,刘禹.多智能体群智博弈策略轻量化问题[J].指挥与控制学报,2020,6(4):381-387. 被引量：9
8郑健,陈建,朱琨.基于多智能体强化学习的无人集群协同设计[J].指挥信息系统与技术,2020,11(6):26-31. 被引量：9
9罗亚中,李振瑜,祝海.航天器轨道追逃微分对策研究综述[J].中国科学：技术科学,2020,50(12):1533-1545. 被引量：17
10Zhe Su,Nan Qi,Yongjie Yan,Zhiyong Du,Jiaxin Chen,Zhibin Feng,Qihui Wu.Guarding Legal Communication with Smart Jammer:Stackelberg Game Based Power Control Analysis[J].China Communications,2021,18(4):126-136. 被引量：3

1汤旭,叶东,肖岩,孙兆伟.不完全信息Epsilon纳什均衡的航天器末端追逃博弈策略[J].宇航学报,2024,45(1):63-73. 被引量：1
2房群.基于PPO算法的光储式充电站储能运行策略[J].电工技术,2024(2):97-100.
3张红卓.构建黑龙江省发展型社会救助体系研究[J].经济研究导刊,2024(2):107-110.
4马庆,邓长虹.基于单/多智能体简化强化学习的电力系统无功电压控制[J].电工技术学报,2024,39(5):1300-1312. 被引量：4
5王永梅.人口老龄化对居民消费影响的实证分析[J].河北开放大学学报,2024,29(1):63-65.
6王卓,李永强,冯宇,冯远静.两方零和马尔科夫博弈策略梯度算法及收敛性分析[J].浙江大学学报（工学版）,2024,58(3):480-491.
7成德宁.优化城乡公共产品供给和配置机制[J].国家治理,2024(3):66-67.
8郑永君,吴义飞,杨雯.生存倒逼下的自愿联合——传统家户村落的公共物品供给机制及其当代启示[J].中国农村研究,2023(2):315-331.
9杨鹤鸣,李勇,梁伟栋,赵炜,王一冲.基于协同空域封锁的反导拦截弹最优中制导律研究[J].战术导弹技术,2023(6):83-92. 被引量：1
10杨静,陆铭华,郭力强,马洁琼,吴金平,张会.不确定环境下潜艇综合防御鱼雷的作战决策分析与优化方法[J].兵工学报,2024,45(2):564-573.

西北工业大学学报

2024年第1期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部