基于改进型MADDPG的多智能体对抗策略算法被引量：2

Multi-agent Confrontation Strategy Algorithm Based on Improved MADDPG

下载PDF

导出

摘要探索深度强化学习在对抗作战策略上的应用,针对多智能体深度确定性策略梯度算法的局部可观测、训练较难收敛和稳定性较差的问题,分别引入长短时记忆神经网络、基于损失的优先级经验和策略梯度权重3种方法解决算法中对应问题,结合对抗作战决策场景与改进后的算法,设计3种决策实验场景。将算法与MADDPG、DDPG算法在多智能体模拟对抗实验环境中进行对比,结果表明算法在对抗决策的稳定性和效率上均有提升。 The application of deep reinforcement learning in the confrontation combat strategies is explored,aiming at the problems of partial observability,hard convergence in training,and poor stability of the Multi-Agent Deep Deterministic Policy Gradient(MADDPG)algorithm,three kinds of methods including Long Short-Term Memory(LSTM)network,priority experience replay based on loss,and policy gradient weight are introduced into the MADDPG algorithm to solve the corresponding problems,three kinds of decision-making experiment scenarios are designed with the combination of confrontation combat decision-making scenarios and the improved algorithm,and the proposed algorithm is compared with the MADDPG and DDPG algorithm in multi-agent simulation confrontation experiment environment.The results show that the proposed algorithm has improved the stability and efficiency of confrontation decision-making.

作者刘鹏赵建新张宏映高腾飞闫涛 LIU Peng;ZHAO Jianxin;ZHANG Hongying;GAO Tengfei;YAN Tao(North Automatic Control Technology Institute,Taiyuan 030006,China)

机构地区北方自动控制技术研究所

出处《火力与指挥控制》 CSCD 北大核心 2023年第3期132-138,145,共8页 Fire Control & Command Control

关键词深度强化学习对抗决策长短时记忆网络经验优先抽取策略梯度 deep reinforcement learning confrontation decision-making long and shortterm memory networks experience priority extraction policy gradient

分类号 TJ01 [兵器科学与技术—兵器发射理论与技术]

引文网络
相关文献

参考文献4

1文东日,陈小虎,李文,杜二锋.基于深度强化学习的装备组合运用方法[J].指挥控制与仿真,2021,43(6):135-140. 被引量：3
2陈希亮,张永亮.基于深度强化学习的陆军分队战术决策问题研究[J].军事运筹与系统工程,2017,31(3):20-27. 被引量：23
3马文,李辉,王壮,黄志勇,吴昭欣,陈希亮.基于深度随机博弈的近距空战机动决策[J].系统工程与电子技术,2021,43(2):443-451. 被引量：21
4何明,张斌,柳强,陈希亮,杨铖.MADDPG算法经验优先抽取机制[J].控制与决策,2021,36(1):68-74. 被引量：10

二级参考文献22

1樊会涛.第五代空空导弹的特点及关键技术[J].航空科学技术,2011(3):1-5. 被引量：40
2孙建彬,邢立宁.基于遗传算法的武器系统组合优化方法[J].价值工程,2011,30(29):9-11. 被引量：3
3杜正军,陈超,姜鑫.基于影响网络与序贯博弈的作战行动序列模型与求解[J].系统工程理论与实践,2013,33(1):215-222. 被引量：13
4张迎新,陈超,刘忠,石建迈.资源不确定军事任务计划预测调度模型与算法[J].国防科技大学学报,2013,35(3):30-35. 被引量：13
5毛梦月,张安,周鼎,毕文豪.基于机动预测的强化学习无人机空中格斗研究[J].电光与控制,2019,26(2):5-10. 被引量：8
6于少波,李新明,刘东,闫雪飞.基于Multi-Agent的电子信息装备体系作战效能评估方法[J].四川兵工学报,2015,36(7):79-82. 被引量：3
7赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：127
8梅丹,刘锦涛,高丽.基于近似动态规划与零和博弈的空战机动决策[J].兵工自动化,2017,36(3):35-39. 被引量：3
9张永亮,赵广超.沉浸式分队战术训练仿真平台关键技术研究[J].军事运筹与系统工程,2017,31(1):74-80. 被引量：3
10董肖杰,余敏建.基于博弈论的自由空战指挥引导对策问题研究[J].航空计算技术,2017,47(2):80-84. 被引量：5

共引文献51

1Damian B O'Grady,周立君.硅质碎屑被动大陆边缘的地貌变化分类[J].海洋地质动态,2000,16(7):13-15. 被引量：1
2何杨,肖基毅.基于深度强化学习的网络共享资源智能调度方法[J].自动化与仪器仪表,2019,0(6):80-82. 被引量：3
3高昂,段莉,张国辉,董志明,曹洁,郭齐胜.计算机生成兵力行为建模发展现状[J].计算机工程与应用,2019,55(19):43-51. 被引量：4
4张永亮,董浩洋,刘勇.基于知识的智能指挥决策运行机制及其支撑技术研究[J].军事运筹与系统工程,2020,34(2):5-12. 被引量：8
5曹雷,孙彧,陈希亮,吴宜珈.联合作战任务智能规划关键技术及其应用思考[J].国防科技,2020,41(3):49-56. 被引量：9
6殷昌盛,杨若鹏,朱巍,邹小飞,李峰.多智能体分层强化学习综述[J].智能系统学报,2020,15(4):646-655. 被引量：20
7高昂,董志明,张国辉,梁涛,郭齐胜.LVC训练系统中计算机生成兵力生成技术研究[J].系统仿真学报,2021,33(3):745-752. 被引量：8
8王建鑫,江晶.基于远海突击任务的空中编队组建流程研究[J].科技资讯,2021,19(4):206-210.
9陈希亮,李清伟,孙彧.基于博弈对抗的空战智能决策关键技术[J].指挥信息系统与技术,2021,12(2):1-6. 被引量：8
10高昂,董志明,李亮,段莉,郭齐胜.面向LVC训练的蓝方虚拟实体近距空战决策建模[J].系统工程与电子技术,2021,43(6):1606-1617. 被引量：4

同被引文献15

1林龙信,张比升.水面无人作战系统技术发展与作战应用[J].水下无人系统学报,2018,26(2):107-114. 被引量：15
2彭周华,吴文涛,王丹,刘陆.多无人艇集群协同控制研究进展与未来趋势[J].中国舰船研究,2021,16(1):51-64. 被引量：25
3何明,张斌,柳强,陈希亮,杨铖.MADDPG算法经验优先抽取机制[J].控制与决策,2021,36(1):68-74. 被引量：10
4李波,越凯强,甘志刚,高佩忻.基于MADDPG的多无人机协同任务决策[J].宇航学报,2021,42(6):757-765. 被引量：23
5赵伟,叶军,王邠.基于人工智能的智能化指挥决策和控制[J].信息安全与通信保密,2022(2):2-8. 被引量：5
6刘升,杜鹏,郑婷婷,周健.无人艇集群协同及编队问题研究[J].中国水运,2022(5):139-142. 被引量：3
7龚慧雯,王桐,陈立伟,薛书钰,金鼎筌.基于深度强化学习的多智能体对抗策略算法[J].应用科技,2022,49(5):1-7. 被引量：4
8苏震,张钊,陈聪,刘殿勇,梁霄.基于深度强化学习的无人艇集群博弈对抗[J].兵器装备工程学报,2022,43(9):9-14. 被引量：2
9邹启杰,蒋亚军,高兵,李文雪,张汝波.协作多智能体深度强化学习研究综述[J].航空兵器,2022,29(6):78-88. 被引量：5
10石鼎,燕雪峰,宫丽娜,张静宣,关东海,魏明强.强化学习驱动的海战场多智能体协同作战仿真算法[J].系统仿真学报,2023,35(4):786-796. 被引量：3

引证文献2

1邢博闻,张昭夷,王世明,娄嘉奕,王五桂.基于深度强化学习的多无人艇协同目标搜索算法[J].兵器装备工程学报,2023,44(11):118-125.
2于长东,刘新阳,陈聪,刘殿勇,梁霄.基于多智能体深度强化学习的无人艇集群博弈对抗研究[J].水下无人系统学报,2024,32(1):79-86.

1杨天明.红四方面军川陕边作战策略的形成与运用[J].军事史林,2023(1):20-29.
2林泽阳,赖俊,陈希亮,王军.基于课程强化学习的联合海空博弈决策模型训练方法[J].火力与指挥控制,2023,48(3):25-34.
3陈林秀,杨翔宇,张航,赵佳佳,郝明瑞.基于主动雷达/红外信息融合的复合制导方法[J].航空学报,2022,43(S01):210-219. 被引量：2
4韩玲,张晖,方若愚,刘国鹏,朱长盛,迟瑞丰.基于改进深度强化学习的全局路径规划策略[J].汽车安全与节能学报,2023,14(2):202-211. 被引量：1
5廖英祺,荆江平,嵇文路,宋冰倩.基于PMP的风储联合最优调峰控制策略研究[J].电机与控制应用,2023,50(5):72-81.

火力与指挥控制

2023年第3期

浏览历史

内容加载中请稍等...

基于改进型MADDPG的多智能体对抗策略算法被引量：2

参考文献4

二级参考文献22

共引文献51

同被引文献15

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于改进型MADDPG的多智能体对抗策略算法 被引量：2

参考文献4

二级参考文献22

共引文献51

同被引文献15

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于改进型MADDPG的多智能体对抗策略算法被引量：2