基于强化学习的多智能体协同电子对抗方法

Multi-agent cooperative electronic countermeasure method based on reinforcement learning

下载PDF

导出

摘要传统电子战正逐步向融合人工智能技术的智能电子战演变,基于强化学习的多无人机电子协同对抗为主要场景,针对复杂高维的状态动作空间下多智能体强化学习算法不容易收敛问题,提出了一种基于优先经验回放的多智能体双对抗策略梯度算法。该算法通过引入优先经验回放机制,并提出对抗Critic网络和双Critic网络来平衡动作及价值间的关系和减小单一Critic网络估计不确定性的问题。仿真实验结果表明:在同一仿真场景下相较于其他强化学习算法,PerMaD4算法具有更好的收敛效果且任务完成度提高了8.9%。 Traditional electronic warfare is gradually evolving into intelligent electronic warfare that integrates artificial intelligence technology.In view of the problem that multi-agent reinforcement learning algorithm is not easy to converge in complex and high-dimensional state action space,a multi-agent dual adversarial strategy gradient algorithm based on preferential experience playback is proposed.The algorithm introduces a preferential experience playback mechanism,and presents a counter Critic network and a dual Critic network to balance the relationship between action and value and to reduce the uncertainty of a single Critic network.The simulation results show that compared with other reinforcement learning algorithms,the PerMaD4 algorithm has better convergence effect and the task completion degree is increased by 8.9%in the same simulation scene.

作者杨洋王烨康大勇陈嘉玉李姜赵华栋 YANG Yang;WANG Ye;KANG Dayong;CHEN Jiayu;LI Jiang;ZHAO Huadong(Changchun Institute of Optics,Fine Mechanics and Physics,Chinese Academy of Sciences,Changchun 130033,China;University of Chinese Academy of Sciences,Beijing 100049,China;Key Laboratory of Electro-Optical Countermeasures Test&Evaluation Technology,Luoyang 471000,China)

机构地区中国科学院长春光学精密机械与物理研究所中国科学院大学光电对抗测试评估技术重点实验室

出处《兵器装备工程学报》 CAS CSCD 北大核心 2024年第7期1-10,共10页 Journal of Ordnance Equipment Engineering

基金国家自然科学基金项目(61977059)。

关键词协同决策强化学习策略梯度电子对抗仿真 collaborative decision-making reinforcement learning policy gradient electronic countermeasure simulation

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献13

1李洪,王超,王睿.关于电子战发展趋势的一些思考[J].中国军转民,2023(1):57-59. 被引量：2
2王健,杨渡佳,黄科举,李小帅,杨俊安.认知电子战发展趋势:从单体智能到群体智能[J].信息对抗技术,2023,2(4):151-170. 被引量：4
3代学武,吴越,石琦,崔东亮,俞胜平.基于优先经验回放可迁移深度强化学习的高铁调度[J].控制与决策,2023,38(8):2375-2388. 被引量：1
4施伟,冯旸赫,程光权,黄红蓝,黄金才,刘忠,贺威.基于深度强化学习的多机协同空战方法研究[J].自动化学报,2021,47(7):1610-1623. 被引量：53
5唐峯竹,唐欣,李春海,李晓欢.基于深度强化学习的多无人机任务动态分配[J].广西师范大学学报（自然科学版）,2021,39(6):63-71. 被引量：8
6韦强,赵书文.人工智能推动战争形态演变[J].军事文摘,2017,0(13):54-57. 被引量：6
7李杰,谭跃进.基于集成改进蚁群算法的作战环推荐方法[J].系统工程与电子技术,2024,46(6):2002-2012. 被引量：1
8胡振震,陈少飞,袁唯淋,李鹏,陈璟.基于粒子群优化的德州扑克在线对手利用[J].控制与决策,2024,39(5):1687-1696. 被引量：1
9马也,范文慧,常天庆.基于智能算法的无人集群防御作战方案优化方法[J].兵工学报,2022,43(6):1415-1425. 被引量：7
10孙乐.军事领域中科技专家系统的应用与效能评估[J].舰船电子工程,2022,42(1):16-18. 被引量：2

二级参考文献160

1李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
2王然然,魏文领,杨铭超,刘玮.考虑协同航路规划的多无人机任务分配[J].航空学报,2020(S02):24-35. 被引量：30
3唐宏,陈少卿.指挥控制系统的效能评估[J].系统仿真学报,2001,13(S2):392-394. 被引量：39
4宋红英,纪威,李波.基于蚁群算法的神经网络在发动机故障诊断中的应用研究[J].小型内燃机与摩托车,2006,35(1):6-8. 被引量：2
5贾传峻,胡思继,杨宇栋.列车运行调整微粒群算法研究[J].铁道学报,2006,28(3):6-11. 被引量：17
6李冬,王学进,周航宇.并行计算在数值SEA效能评估中的应用研究[J].计算机应用与软件,2008,25(1):168-169. 被引量：3
7周妍,周磊山.高速铁路行车调度指挥一体化仿真实验平台设计与研究[J].铁道学报,2012,34(6):1-7. 被引量：33
8黎湘,范梅梅.认知雷达及其关键技术研究进展[J].电子学报,2012,40(9):1863-1870. 被引量：77
9李霆.舰载集成反导武器系统的效能评估技术[J].舰船电子工程,2013,33(3):94-96. 被引量：4
10熊瑜.改进蚁群算法在武器目标分配中的应用研究[J].计算机与数字工程,2014,42(3):399-402. 被引量：6

共引文献87

1徐佳,胡春鹤.分布式多经验池的无人机自主避碰方法[J].信息与控制,2023,52(4):432-443.
2李明哲,马琼敏,伍国华.基于强化学习的无人机集群动态任务规划算法[J].系统仿真技术,2023,19(3):193-204.
3王可,程馨乐,薛明志.地方高校开展军工科技人才培养的机遇、挑战与对策——以信息学科为例[J].商丘师范学院学报,2023,39(9):72-74.
4卜先锦.当前军事决策分析关注的几个问题[J].军事运筹与系统工程,2018,32(2):5-9. 被引量：2
5于成龙,侯俊杰,蒲洪波,张伟.新一代人工智能在国防科技领域发展探讨[J].国防科技,2020,41(4):13-18. 被引量：9
6于丽莉,何明利,陶溢.地面无人装备对未来陆战的影响及对策[J].国防科技,2020,41(6):33-37. 被引量：7
7赵新路,李兵,胡爱虔,熊西军,程远林.分布式作战智能化C^(2)的能力提升发展分析[J].中国电子科学研究院学报,2021,16(11):1119-1125. 被引量：6
8殷宇维,王凡,吴奎,胡剑秋.基于改进DDPG的空战行为决策方法[J].指挥控制与仿真,2022,44(1):97-102. 被引量：5
9郭洪宇,初阳,刘志,周玉芳.基于深度强化学习潜艇攻防对抗训练指挥决策研究[J].指挥控制与仿真,2022,44(1):103-111. 被引量：2
10王哲超,傅启明,陈建平,胡伏原,陆悠,吴宏杰.小样本场景下的强化学习研究综述[J].南京师范大学学报（工程技术版）,2022,22(1):86-92.

1杨和林,郑梦婷,刘帅,肖亮,谢显中,熊泽辉.恶意干扰下的无人机辅助边缘计算加权能耗与时延智能优化[J].电子与信息学报,2024,46(7):2879-2887.
2许侃,吴鑫卓,林原,顾茜,林鸿飞,谢张.基于对抗型排序学习的混合推荐算法[J].山西大学学报（自然科学版）,2024,47(3):481-493.
3王国芳,文刚,王一帆,关昕,柯福阳.接收机钟增强北斗三实时PPP单向授时方法[J].测绘科学,2024,49(4):34-42.
4王建军,茹伟,施光南,苏晓云,王逸飞,蒋玮.考虑智能软开关的配电网检修运行协同决策[J].哈尔滨理工大学学报,2024,29(2):85-93.
5黄兆军,曾明如.小型无人有缆遥控水下机器人智能控制方法[J].实验室研究与探索,2024,43(7):34-38.
6姜广君,栾宇,巩勇智.基于一维卷积迁移学习的跨工况机床轴承故障诊断[J].机床与液压,2024,52(13):227-236.
7王贤明,杨超群,曹向辉,龚成龙,张恒.基于欺骗中继技术的无人机主动监听优化方法研究[J].无人系统技术,2024,7(3):67-74.
8徐志雄,邸彦佳,胡文雷,杨东东.多任务知识交叉融合框架下智能博弈对抗策略研究[J].军事运筹与评估,2024,39(3):55-60.
9余荣杰,徐灵,章锐辞.基于多智能体深度强化学习的高速公路可变限速协同控制方法[J].同济大学学报（自然科学版）,2024,52(7):1089-1098.
10孙立,王显连,苏志刚,施娟.计及源荷不确定性的光/氢/储建筑能源系统高效热电协同智能调度[J].工程热物理学报,2024,45(7):1932-1940.

兵器装备工程学报

2024年第7期

浏览历史

内容加载中请稍等...

基于强化学习的多智能体协同电子对抗方法

参考文献13

二级参考文献160

共引文献87

相关作者

相关机构

相关主题

浏览历史