基于多智能体深度强化学习的分布式协同干扰功率分配算法被引量：4

Allocation Algorithm of Distributed Cooperative Jamming Power Based on Multi-Agent Deep Reinforcement Learning

下载PDF

导出

摘要针对战场通信对抗协同干扰中的干扰功率分配难题,本文基于多智能体深度强化学习设计了一种分布式协同干扰功率分配算法.具体地,将通信干扰功率分配问题构建为完全协作的多智能体任务,采用集中式训练、分布式决策的方式缓解多智能体系统环境非平稳、决策维度高的问题,减少智能体之间的通信开销,并加入最大策略熵准则控制各智能体的探索效率,以最大化累积干扰奖励和最大化干扰策略熵为优化目标,加速各智能体间协同策略的学习.仿真结果表明,所提出的分布式算法能有效解决高维协同干扰功率分配难题,相比于已有的集中式分配算法具有学习速度更快、波动性更小等优点,且相同条件下干扰效率可高出集中式算法16.8%. In order to solve the problem of jamming power allocation in battlefield cooperative communication countermeasures,this paper designs a distributed cooperative jamming power allocation method based on multi-agent deep reinforcement learning.Specifically,modeling the communication jamming power allocation as a fully cooperative multi-agent task,then the framework of centralized training and distributed decision-making is adopted to alleviate the characteristic of non-stationary environment and high dimensions in multi-agent system,reducing the communication overhead between agents as well,and introducing the maximum policy entropy criterion to control the exploration efficiency of each agent.Regarding maximizing the cumulative jamming reward and maximizing the entropy of the jamming policy as the optimization goal,then accelerates the learning of cooperative strategies.Simulation results indicate the proposed distributed method can effectively solve the high-dimensional cooperative jamming power allocation problem.Compared with the existing centralized allocation method,it has faster learning speed and less volatility,and the jamming efficiency is 16.8%higher than that of the centralized method under the same conditions.

作者饶宁许华蒋磊宋佰霖史蕴豪 RAO Ning;XU Hua;JIANG Lei;SONG Bai-lin;SHI Yun-hao(Information and Navigation College of Air Force Engineering University,Xi’an,Shaanxi 710077,China)

机构地区空军工程大学信息与导航学院

出处《电子学报》 EI CAS CSCD 北大核心 2022年第6期1319-1330,共12页 Acta Electronica Sinica

关键词通信对抗协同功率分配多智能体深度强化学习分布式策略最大策略熵 communication countermeasures cooperative resource allocation multi-agent deep reinforcement learning distributed strategy maximum policy entropy

分类号 TN975 [电子电信—信号与信息处理]

引文网络
相关文献

参考文献7

1王沙飞,鲍雁飞,李岩.认知电子战体系结构与技术[J].中国科学：信息科学,2018,48(12):1603-1613. 被引量：58
2颛孙少帅,杨俊安,刘辉,黄科举.基于正强化学习和正交分解的干扰策略选择算法[J].系统工程与电子技术,2018,40(3):518-525. 被引量：10
3黄志清,曲志伟,张吉,张严心,田锐.基于深度强化学习的端到端无人驾驶决策[J].电子学报,2020,48(9):1711-1719. 被引量：19
4陈思光,陈佳民,赵传信.基于深度强化学习的云边协同计算迁移研究[J].电子学报,2021,49(1):157-166. 被引量：16
5LI Shuang,YAN Yanghui,REN Ju,ZHOU Yuezhi,ZHANG Yaoxue.A Sample-Efficient Actor-Critic Algorithm for Recommendation Diversification[J].Chinese Journal of Electronics,2020,29(1):89-96. 被引量：5
6杨启萌,禹龙,田生伟,艾山·吾买尔.基于深度强化学习的维吾尔语人称代词指代消解[J].电子学报,2020,48(6):1077-1083. 被引量：3
7刘婷婷,罗义南,杨晨阳.基于多智能体深度强化学习的分布式干扰协调[J].通信学报,2020,41(7):38-48. 被引量：4

二级参考文献13

1张杰儒.电子对抗系统干扰效果估计[J].航空与航天,1997(3):12-17. 被引量：4
2张珂,张璇,金家才.认知电子战初探[J].航天电子对抗,2013,29(1):53-56. 被引量：16
3刘国荣,张扬名.移动机器人轨迹跟踪的模糊PID-P型迭代学习控制[J].电子学报,2013,41(8):1536-1541. 被引量：35
4刘聪锋,赵梓越.自适应调零天线对抗效能层次分析评估方法[J].西安电子科技大学学报,2015,42(1):23-28. 被引量：8
5范忠亮,朱耿尚,胡元奎.认知电子战概述[J].电子信息对抗技术,2015,30(1):33-38. 被引量：31
6张春磊,杨小牛.认知电子战与认知电子战系统研究[J].中国电子科学研究院学报,2014,9(6):551-555. 被引量：48
7贾鑫,朱卫纲,曲卫,陈维高.认知电子战概念及关键技术[J].装备学院学报,2015,26(4):96-100. 被引量：23
8于乃功,李倜,方略.基于直接强化学习的面向目标的仿生导航模型[J].中国科学：信息科学,2016,46(3):325-337. 被引量：3
9李冬白,田生伟,禹龙,吐尔根.依布拉音,冯冠军.基于深度学习的维吾尔语人称代词指代消解[J].中文信息学报,2017,31(4):80-88. 被引量：6
10李敏,禹龙,田生伟,吐尔根.依布拉音,赵建国.基于深度学习的维吾尔语名词短语指代消解[J].自动化学报,2017,43(11):1984-1992. 被引量：7

共引文献105

1姚富强,朱勇刚,孙艺夫,郭文龙.无线通信“N+1维”内生抗干扰理论与技术[J].Security and Safety,2023,2(3):29-43.
2姚彦龙,张改虎.关于军用航空认知战的顶层思考[J].飞机设计,2023,43(5):1-4.
3石玉美,顾安忠,汪荣顺,鲁雪生.混合制冷剂循环(MRC)液化天然气流程的设备模拟[J].低温与超导,2000,28(2):41-46. 被引量：8
4蒋江涛.认知电子战的关键技术发展动态与分析[J].中国科技纵横,2019,0(4):241-242. 被引量：1
5欧健,付东.面向体系对抗的认知电子战发展趋势探析[J].军事运筹与系统工程,2019,33(1):75-80. 被引量：12
6张海,陈小龙,张财生,黄勇.人工智能时代智能化海战模式[J].科技导报,2019,37(12):86-91. 被引量：13
7张君毅,张冠杰,杨鸿杰.针对未知通信目标的干扰策略智能生成方法研究[J].电子测量技术,2019,42(16):148-153. 被引量：1
8WANG Jianfang,FU Zhiyuan,NIU Mingxin,ZHANG Pengbo,ZHANG Qiuling.Multi-feedback Pairwise Ranking via Adversarial Training for Recommender[J].Chinese Journal of Electronics,2020,29(4):615-622.
9阚保强.干扰攻击量化评估下的MHWN多路径优化方法[J].井冈山大学学报（自然科学版）,2020,41(4):52-57.
10阚保强.有扰下的无线传输监测优化方法[J].湖北师范大学学报（自然科学版）,2020,40(3):33-38.

同被引文献81

1黎湘,范梅梅.认知雷达及其关键技术研究进展[J].电子学报,2012,40(9):1863-1870. 被引量：77
2王沙飞,鲍雁飞,李岩.认知电子战体系结构与技术[J].中国科学：信息科学,2018,48(12):1603-1613. 被引量：58
3张伟,平殿发,张韫.云模型在雷达干扰资源多目标优化配置中的应用[J].指挥控制与仿真,2014,36(5):39-44. 被引量：5
4张春磊,杨小牛.认知电子战与认知电子战系统研究[J].中国电子科学研究院学报,2014,9(6):551-555. 被引量：48
5周波,戴幻尧,乔会东,崔建岭,刘文钊.基于“OODA环”理论的认知电子战与赛博战探析[J].中国电子科学研究院学报,2014,9(6):556-562. 被引量：19
6王伟,杨俊安,崔琳,刘辉.基于支持向量机的通信干扰效果在线评估算法[J].电子信息对抗技术,2017,32(2):51-57. 被引量：8
7邢强,贾鑫,朱卫纲,张维坤.无人机群组认知电子战概述及关键技术[J].现代防御技术,2017,45(6):173-177. 被引量：8
8颛孙少帅,杨俊安,刘辉,黄科举.未知拓扑无线自组网络多节点干扰决策算法[J].西安交通大学学报,2018,52(6):91-97. 被引量：4
9杨鸿杰,张君毅.基于强化学习的智能干扰算法研究[J].电子测量技术,2018,41(20):49-54. 被引量：15
10廖鹰,易卓,胡晓峰.基于深度学习的初级战场态势理解研究[J].指挥与控制学报,2017,3(1):67-71. 被引量：27

引证文献4

1朱云飞,张建博.基于强化学习的多干扰机干扰任务分配方法[J].电声技术,2023,47(2):141-145.
2王健,杨渡佳,黄科举,李小帅,杨俊安.认知电子战发展趋势:从单体智能到群体智能[J].信息对抗技术,2023,2(4):151-170. 被引量：3
3梁鑫龙,徐永贵,史君.依据散列查找的分布式网络数据分流算法[J].新乡学院学报,2023,40(12):26-30.
4赵浩钦,杨政,司江勃,石嘉,严少虎,段国栋.一种聚类辅助的智能频谱分配技术研究[J].西安电子科技大学学报,2023,50(6):1-12.

二级引证文献3

1闫宽,赵江鸿.基于群体智能算法的羽毛球战术分析与优化研究[J].文体用品与科技,2023(22):187-189.
2崔玉伟,孙雪.作动器故障下的无人机容错控制方法[J].海军航空大学学报,2023,38(6):449-456.
3刘文斌,吉磊,范平志,丁建锋.美军认知电子战关键技术发展方向分析[J].通信技术,2024,57(3):299-308.

1张朝辉,杨家豪,苏杰和.直流互联异步电网的HVDC与AGC协同功率分配[J].电测与仪表,2022,59(1):162-167. 被引量：3
2杨勇.基于物理学科核心素养的解题模型建构策略——以"电学中最大功率问题"为例[J].中学物理教学参考,2022(15):46-47. 被引量：1
3郭策,曾志文,朱鹏铭,周智千,卢惠民.基于图卷积模仿学习的分布式群集控制[J].浙江大学学报（工学版）,2022,56(6):1055-1061.
4舒服华.基于极限学习机的我国社会融资规模预测[J].金融理论与教学,2022(2):8-13.
5程杉,尚冬冬,魏昭彬,倪凯旋.基于纳什议价博弈的微电网一体化电站分布式协调优化[J].电机与控制学报,2022,26(5):86-95. 被引量：5
6吴晓刚,吴新华,季青锋,马明玉,李高俊杰.计及新能源不确定性的新能源场站与储能电站分布式协同优化[J].浙江电力,2022,41(6):54-61. 被引量：13
7王建平,胡春阳,曹维,曲彦峰,常玲善.防空反导软硬杀伤综合运用研究[J].火力与指挥控制,2022,47(5):183-187.
8彭飞,马煜,张晓华,吴奕,邓文琛,陈志奎.基于改进深度森林的短期电力负荷预测模型[J].重庆大学学报,2022,45(5):1-8. 被引量：3
9崔明勇,宣名阳,卢志刚,何良策.基于合作博弈的多综合能源服务商运行优化策略[J].中国电机工程学报,2022,42(10):3548-3563. 被引量：32
10王晓,李鸿阶.乡村振兴背景下侨乡异质性社会治理考察[J].福建论坛（人文社会科学版）,2022(1):191-200. 被引量：4

电子学报

2022年第6期

浏览历史

内容加载中请稍等...

基于多智能体深度强化学习的分布式协同干扰功率分配算法被引量：4

参考文献7

二级参考文献13

共引文献105

同被引文献81

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于多智能体深度强化学习的分布式协同干扰功率分配算法 被引量：4

参考文献7

二级参考文献13

共引文献105

同被引文献81

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于多智能体深度强化学习的分布式协同干扰功率分配算法被引量：4