基于DDPG算法的末制导律设计研究被引量：9

Terminal Guidance Law Design Based on DDPG Algorithm

下载PDF

导出

摘要末制导律设计是拦截系统中的关键技术,常用的比例制导律及其变型在目标大机动时性能下降,且受到导航比的影响.提出基于DDPG算法的末制导律设计方法,通过对拦截问题的环境状态和动作(控制量)进行设计,实现了从仿真环境交互数据中学习回报最优的制导律;与传统方法相比,该无模型方法更具灵活性;针对强化学习方法动作集假设偏置弱带来训练效率低的问题,进一步提出将导航比作为决策优化参数,加速了训练过程并实现动态调整比例制导律中的导航比.对比实验表明,两种强化学习末制导律设计方法获得了优于比例制导律及其变型的拦截效果,展现出良好的研究前景和潜在的应用价值. The design of terminal guidance law is the key technology in interception system.The performance of the commonly used proportional guidance law and its variants will degrade under the condition of a large maneuvering target and will be affected by the navigation ratio.A terminal guidance law design method based on the DDPG algorithm is proposed.By designing the environment state and action(control quantity)of interception problem,the guidance law with optimal learning reward from the interactive data of simulation environment is realized.Compared with the traditional method,the model-free method is more flexible.Aiming at the problem of low training efficiency caused by weak hypothesis bias of action set in reinforcement learning method,a further proposal is proposed taking the navigation ratio as the decision optimization parameter,the training process is accelerated and the navigation ratio in proportional guidance law is adjusted dynamically.The comparative experiments show that the two design methods of terminal guidance law based on reinforcement learning obtain better interception effect than proportional guidance law and its variants,showing good research prospects and potential application value.

作者刘扬何泽众王春宇郭茂祖 LIU Yang;HE Ze-Zhong;WANG Chun-Yu;GUO Mao-Zu(School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001;School of Electrical and Information Engineering,Beijing University of Civil Engineering and Architecture,Beijing 100044)

机构地区哈尔滨工业大学计算机科学与技术学院北京建筑大学电气与信息工程学院

出处《计算机学报》 EI CAS CSCD 北大核心 2021年第9期1854-1865,共12页 Chinese Journal of Computers

基金国家自然科学基金(62071154,61671188,61976071)资助

关键词末制导律强化学习确定性策略归纳偏置 terminal guidance law reinforcement learning deterministic policy inductive bias

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：456
2李国豪.基于3D CNN-DDPG端到端无人驾驶控制[J].电子设计工程,2018,26(22):156-159. 被引量：4

二级参考文献8

1魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
2高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
3王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：27
4孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：608
5余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：604
6傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014,37(3):677-686. 被引量：25
7黎亚雄,张坚强,潘登,胡惮.基于RNN-RBM语言模型的语音识别研究[J].计算机研究与发展,2014,51(9):1936-1944. 被引量：27
8杨钊,陶大鹏,张树业,金连文.大数据下的基于深度神经网的相似汉字识别[J].通信学报,2014,35(9):184-189. 被引量：28

共引文献457

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：2
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：42
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：40
5周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：5
6李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1
7王雪鉴,文永明,石晓荣,张宁宁,刘洁玺.多智能体多耦合任务混合式智能决策架构设计[J].航空学报,2023,44(S02):418-425.
8刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：1
9蒋方庆,陈自力,高喜俊,王春峰,贺道坤.基于改进TD3算法的无人机决策研究[J].信息化研究,2023,49(3):36-42.
10甘惟,吴志强,王元楷,徐浩文,严娟,何珍,赵紫辰.AIGC辅助城市设计的理论模型建构[J].城市规划学刊,2023(2):12-18. 被引量：12

同被引文献68

1熊少锋,魏明英,赵明元,熊华,王卫红,周本春.逆轨拦截机动目标的三维最优制导律[J].宇航学报,2020,41(1):80-90. 被引量：17
2周宏宇,王小刚,赵亚丽,崔乃刚.组合动力运载器上升段轨迹智能优化方法[J].宇航学报,2020,41(1):61-70. 被引量：10
3张汝川,顾文锦,于进勇,赵红超.基于Hopfield神经网络的最优滑模制导律研究[J].宇航学报,2009,30(1):220-224. 被引量：3
4宗群,田栢苓,窦立谦.基于Gauss伪谱法的临近空间飞行器上升段轨迹优化[J].宇航学报,2010,31(7):1775-1781. 被引量：50
5李惠峰,李昭莹.高超声速飞行器上升段最优制导间接法研究[J].宇航学报,2011,32(2):297-302. 被引量：21
6范金锁,张合新,孟飞,吕永佳.飞行器最优末制导律的自适应PID滑模设计[J].宇航学报,2012,33(9):1225-1232. 被引量：4
7孙胜,张华明,周荻.考虑自动驾驶仪动特性的终端角度约束滑模导引律[J].宇航学报,2013,34(1):69-78. 被引量：43
8李柯,聂万胜,冯必鸣.助推-滑翔飞行器规避能力研究[J].飞行力学,2013,31(2):148-151. 被引量：3
9包为民.航天飞行器控制技术研究现状与发展趋势[J].自动化学报,2013,39(6):697-702. 被引量：79
10董飞垚,雷虎民,李炯,邵雷,胡小江.拦截弹自适应最优滑模制导和控制一体化设计[J].宇航学报,2013,34(11):1456-1461. 被引量：16

引证文献9

1畅鑫,李艳斌,赵研,杜宇峰,刘东辉.基于MA2IDDPG算法的异构多无人机协同突防方法[J].河北工业科技,2022,39(4):328-334. 被引量：2
2梁小辉,贾坤浩,田煜辉,许斌.目标加速度未知下的导弹自适应滑模拦截制导[J].宇航学报,2022,43(9):1257-1267. 被引量：5
3刘士荣,王天一,刘扬.基于信任域策略优化的末制导控制量学习算法[J].导航定位与授时,2022,9(6):77-84.
4杨秀霞,姜子劼,张毅,王聪.针对机动目标的三维实时滚动优化制导策略[J].系统工程与电子技术,2023,45(2):546-558. 被引量：1
5佘智勇,朱彤鸣,刘旺魁.基于近端策略优化的高速无人飞行器上升段在线轨迹规划[J].吉林大学学报（工学版）,2023,53(3):863-870.
6惠俊鹏,汪韧,郭继峰.基于强化学习的禁飞区绕飞智能制导技术[J].航空学报,2023,44(11):235-247. 被引量：2
7李梦璇,郭建国,许新鹏,沈昱恒.基于近端策略优化的制导律设计[J].空天防御,2023,6(4):51-57.
8康冰冰,姜涛,曹建,魏晓晴.基于强化学习的带落角约束的制导律研究[J].航空兵器,2023,30(6):44-49.
9冯涣婷,程玉虎,王雪松.基于不确定性估计的离线确定型Actor-Critic[J].计算机学报,2024,47(4):717-732.

二级引证文献10

1黄旭辰,黄旭星,杨彬,李爽.面向GEO空间碎片清除任务的智能轨迹制导算法[J].宇航学报,2023,44(5):719-730.
2池海红,丁栖航,张国良.预定时间多导弹三维协同制导律[J].宇航学报,2023,44(8):1238-1250. 被引量：1
3王欣,赵云凯,王育欣.针对过载控制的神经网络制导律研究[J].兵器装备工程学报,2023,44(10):139-146. 被引量：1
4马雪飞,王智,宋清华,吴英姿,陶鹏,师豪杰.基于终端角度约束的鱼雷滑模制导律[J].中国惯性技术学报,2023,31(10):1044-1052.
5许炜平,廖宇新,王忠森,殷泽阳,张烨琛.拦截机动目标的自适应有限时间预设性能制导律[J].宇航学报,2023,44(10):1593-1603. 被引量：2
6王晓威,殷玮,杨亚,沈昱恒,颜涛.基于DDPG的高速飞行器预测校正制导律设计[J].航天控制,2024,42(2):22-28.
7尤浩,常新龙,赵久奋,石学乾.带角度约束的三维积分二阶滑模拦截制导律[J].宇航学报,2024,45(4):590-602.
8Jiandong ZHANG,Dinghan WANG,Qiming YANG,Zhuoyong SHI,Longmeng JI,Guoqing SHI,Yong WU.Loyal wingman task execution for future aerial combat:A hierarchical prior-based reinforcement learning approach[J].Chinese Journal of Aeronautics,2024,37(5):462-481.
9刘东辉,郑赢营,畅鑫,李艳斌.基于静态博弈和遗传算法的多智能体博弈策略生成方法[J].无线电工程,2024,54(6):1355-1360.
10畅鑫,李艳斌,刘东辉.基于分层强化学习的多智能体博弈策略生成方法[J].无线电工程,2024,54(6):1361-1367.

1吴并队.例说中考试题对初中历史教学的引领作用[J].试题与研究（教学论坛）,2021(19):29-29.
2胡欣.从新一轮巴以冲突看战争形态的改变[J].新华月报,2021(15):116-117.
3夏新海.交叉口交通信号动态回报值强化学习控制[J].数学的实践与认识,2020,50(22):153-166. 被引量：1
4景凯凯,曲百锐,卢高庆,袁顺刚.变电站环境监测与智能控制系统研究[J].通讯世界,2021,28(5):132-133.
5杨凱智.文化产业在商业公共空间中的经济发展战略研究[J].中国集体经济,2021(27):137-138.
6高雪峰,李庆奎.基于SSA-Elman的非线性系统辨识[J].信息技术与信息化,2021(8):156-158. 被引量：1
7姜广顺,全和平.防空反导“全能战士” 俄罗斯S-300V防空导弹系统详析(上)[J].坦克装甲车辆,2021(15):26-31.
8胡一帆,任宏光,杨硕,张跃坤.隔离度对滚仰式半捷联制导系统性能影响研究[J].航空兵器,2021,28(4):56-62.
9张书森,孟秀云,丁晓.有落角约束的参数可调最优制导律[J].飞行力学,2021,39(4):57-60. 被引量：2
10郑书坚,赵文杰,钟永建,贺敏,赵文龙.面向多目标拦截问题的协同任务分配方法研究[J].空天防御,2021,4(3):55-64. 被引量：2

计算机学报

2021年第9期

浏览历史

内容加载中请稍等...

基于DDPG算法的末制导律设计研究被引量：9

参考文献2

二级参考文献8

共引文献457

同被引文献68

引证文献9

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于DDPG算法的末制导律设计研究 被引量：9

参考文献2

二级参考文献8

共引文献457

同被引文献68

引证文献9

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于DDPG算法的末制导律设计研究被引量：9