基于最大策略熵深度强化学习的通信干扰资源分配方法被引量：10

Allocation method of communication interference resource based on deep reinforcement learning of maximum policy entropy

下载PDF

导出

摘要针对通信组网对抗中干扰资源分配的优化问题,提出了一种基于最大策略熵深度强化学习(MPEDRL)的干扰资源分配方法。该方法将深度强化学习思想引入到通信对抗干扰资源分配领域,并通过加入最大策略熵准则且自适应调整熵系数,以增强策略探索性加速收敛至全局最优。该方法将干扰资源分配建模为马尔可夫决策过程,通过建立干扰策略网络输出分配方案,构建剪枝孪生结构的干扰效果评估网络完成方案效能评估,以策略熵最大化和累积干扰效能最大化为目标训练策略网络和评估网络,决策干扰资源最优分配方案。仿真结果表明,所提出的方法能有效解决组网对抗中的干扰资源分配问题,且相比于已有的深度强化学习方法具有学习速度更快,训练过程波动性更小等优点,干扰效能高出DDPG方法15%。 In order to solve the optimization of the interference resource allocation in communication network countermeasures,an interference resource allocation method based on the maximum policy entropy deep reinforcement learning(MPEDRL)was proposed.The method introduced the idea of deep reinforcement learning into the communication countermeasures resource allocation,it could enhance the exploration of the policy and accelerate the convergence to the global optimum with adding the maximum policy entropy criterion and adaptively adjusting the entropy coefficient.The method modeled interference resource allocation as Markov decision process,then established the interference strategy network to output allocation scheme,constructing the interference effect evaluation network of the clipped twin structure for efficiency evaluation,and trained the policy network and the evaluation network with the goal of maximizing the strategy entropy and the cumulative interference efficacy,then decided the optimal interference resource allocation scheme.The simulation results show that the algorithm can effectively solve the resource allocation problem in communication network confrontation,comparing with the existing deep reinforcement learning methods,it has faster learning speed and less fluctuation in the training process,and achieved 15%higher jamming efficacy than DDPG-based method.

作者饶宁许华齐子森宋佰霖史蕴豪 RAO Ning;XU Hua;QI Zisen;SONG Bailin;SHI Yunhao(College of Information and Navigation, Air Force Engineering University, Xi′an 710077, China)

机构地区空军工程大学信息与导航学院

出处《西北工业大学学报》 EI CAS CSCD 北大核心 2021年第5期1077-1086,共10页 Journal of Northwestern Polytechnical University

基金国家自然科学基金(61601500)资助。

关键词干扰资源分配深度强化学习最大策略熵神经网络 interference resource allocation deep reinforcement learning maximum policy entropy deep neural network

分类号 TN975 [电子电信—信号与信息处理]

引文网络
相关文献

参考文献4

1李东生,高杨,雍爱霞.基于改进离散布谷鸟算法的干扰资源分配研究[J].电子与信息学报,2016,38(4):899-905. 被引量：23
2刘以安,倪天权,张秀辉,李游.模拟退火算法在雷达干扰资源优化分配中的应用[J].系统工程与电子技术,2009,31(8):1914-1917. 被引量：36
3袁建国,南蜀崇,张芳,王竟鑫,庞宇.基于人工蜂群算法的多用户OFDM自适应资源分配方案[J].吉林大学学报（工学版）,2019,49(2):624-630. 被引量：10
4廖晓闽,严少虎,石嘉,谭震宇,赵钟灵,李赞.基于深度强化学习的蜂窝网资源分配算法[J].通信学报,2019,40(2):11-18. 被引量：35

二级参考文献28

1吕永胜,王树宗,王向伟,王江枫.基于贴近度的雷达干扰资源分配策略研究[J].系统工程与电子技术,2005,27(11):1893-1894. 被引量：36
2高彬,吕善伟,郭庆丰,张娜.遗传算法在电子战干扰规划中的应用[J].北京航空航天大学学报,2006,32(8):933-936. 被引量：27
3沈阳,陈永光,李修和.基于0-1规划的雷达干扰资源优化分配研究[J].兵工学报,2007,28(5):528-532. 被引量：45
4康立山,谢云等,非数值并行算法(第一册)--模拟退火算法[M].北京:科学出版社,1998.
5ZHAI X F and ZHUANG Y.IIGA based algorithm for cooperative jamming resource allocation[C].Asia Pacific Conference on Postgraduate Research,Shanghai,China,2009:368-371.
6XUE Y,ZHUANG Y,NI T Q,et al.One improved genetic algorithm applied in the problem of dynamic jam resource scheduling with multi-objective and multi-constraint[C].IEEE 5th International Conference on Bio-inspired Computing:Theories and Applications,Shanghai,China,2010:708-712.
7YANG X S and DEB S.Cuckoo search via levy flights[C].Proceedings of IEEE World Congress on Nature & Biological Inspired Computing,India,2009:210-214.
8YANG X S and DEB S.Multi objective cuckoo search for design optimization[J].Computers & Operations Research,2011,10(9):1-9.
9ZHENG H Q and ZHOU Y Q.A discrete binary version of cuckoo search for knapsack problems[J].Advances in Information Science and Service Sciences,2012,4(18):331-339.
10OUYANG X X,ZHOU Y Q,LUO Q F,et al.A novel discrete cuckoo search algorithm for spherical traveling salesman problem[J].Applied Mathematical & Information Sciences,2013,7(2):777-784.

共引文献95

1郑冰原,孙彦赞,吴雅婷,王涛.基于深度强化学习的超密集网络资源分配[J].电子测量技术,2020(9):133-138. 被引量：6
2张培珍,杨根源,武志东,徐圣良,刘志成.模拟退火算法在雷达网优化部署中的应用[J].现代防御技术,2010(6):18-21. 被引量：12
3黄郡,单洪,满毅.基于区域覆盖的协同干扰任务分配模型及算法[J].兵工学报,2011,32(6):725-732. 被引量：5
4黄郡,单洪,沈楠.协同干扰节点资源优化分配模型及算法[J].计算机应用研究,2011,28(8):2912-2914. 被引量：1
5杨颖,杨善林,马英,胡小建.改进的基于多依赖性的R＆D项目组合选择模型[J].系统工程学报,2011,26(6):834-841. 被引量：12
6张帅,刘忠,石建迈,赵峰,绍杰.基于混沌搜索算法的雷达干扰兵力优化分配[J].四川兵工学报,2012,33(6):6-8. 被引量：6
7宋海方,吴华,邬蒙,程嗣怡.雷达干扰射频隐身特性及自适应功率控制方法[J].电讯技术,2012,52(12):1934-1939. 被引量：6
8宋海方,吴华,程嗣怡,陈游.多波束干扰系统干扰资源综合管理算法[J].兵工学报,2013,34(3):332-338. 被引量：12
9周含冰,何荣茂,张德欣,邵东青.基于模拟植物生长算法的电子装备备件优化配置[J].计算机与数字工程,2013,41(5):700-702. 被引量：3
10赵玉,吴华,程嗣怡,宋海方.先进战机射频集成系统干扰资源管控[J].电光与控制,2013,20(6):7-11. 被引量：8

同被引文献98

1王彪,方涛,戴跃伟.时间反转滤波器组多载波水声通信方法[J].声学学报,2020,45(1):38-44. 被引量：10
2沈阳,陈永光,李修和.基于0-1规划的雷达干扰资源优化分配研究[J].兵工学报,2007,28(5):528-532. 被引量：45
3杨俊波,杨建坤,李修建,刘菊,苏显渝,徐平.全交叉光互连网络的路由选择与控制[J].光学精密工程,2010,18(6):1249-1257. 被引量：3
4国秀珍,侯丽新,尹昭泰,吴金辉.冷原子介质中基于相干诱导高反射带和高透射带的全光路由控制[J].中国光学,2011,4(4):355-362. 被引量：2
5Shufeng Gong,Weijun Long,Hao Huang,De Ben,Minghai Pan.Polyphase orthogonal sequences design for opportunistic array radar via HGA[J].Journal of Systems Engineering and Electronics,2013,24(1):60-67. 被引量：9
6韩国玺,何俊,茆学权,林震鹊.基于改进遗传算法的雷达干扰资源优化分配[J].火力与指挥控制,2013,38(3):99-102. 被引量：15
7孙兆伟,刘雪奎,吴限德,邓泓.用于通信保障航天器的遗传蚁群融合路径规划[J].光学精密工程,2013,21(12):3308-3316. 被引量：5
8何凡,祁世民,谢贵武,吴桐.改进蚁群算法求解多目标雷达干扰资源优化分配[J].火力与指挥控制,2014,39(6):111-114. 被引量：16
9杨秀清,陈海燕.光通信技术在物联网中的应用[J].中国光学,2014,7(6):889-896. 被引量：14
10李东生,高杨,雍爱霞.基于改进离散布谷鸟算法的干扰资源分配研究[J].电子与信息学报,2016,38(4):899-905. 被引量：23

引证文献10

1孔英会,杨佳治,高会生,胡正伟.基于强化学习的光传送网路由波长优化[J].红外与激光工程,2022,51(11):334-342.
2彭翔,许华,蒋磊,饶宁,宋佰霖.一种融合噪声网络的深度强化学习通信干扰资源分配算法[J].电子与信息学报,2023,45(3):1043-1054. 被引量：1
3李庐,朱家明.云无线接入网中基于数据流行度的资源分配方法[J].喀什大学学报,2022,43(3):62-66.
4刘鲤君,丁红,祁鸿燕,杜丽华,宋飞.基于多元回归算法的PaaS平台资源自动化分配方法[J].计算技术与自动化,2023,42(2):168-172. 被引量：1
5万正兵,邓奕.电力线通信宽带OFDM调制自适应分配仿真[J].计算机仿真,2023,40(5):244-247. 被引量：1
6纪慧颖,潘明海,张元时,喻庆豪.基于遗传-蚁群融合算法的干扰资源分配方法[J].系统工程与电子技术,2023,45(7):2098-2107. 被引量：1
7彭翔,许华,蒋磊,张悦,饶宁.一种基于深度强化学习的动态自适应干扰功率分配方法[J].电子学报,2023,51(5):1223-1234.
8赵鹏,王磊.基于改进遗传算法的无线通信网络资源分配方法[J].长江信息通信,2023,36(8):169-171. 被引量：1
9张冬冬.基于深度强化学习的通信网络资源分配方法[J].信息与电脑,2023,35(18):167-169.
10郑章财,徐锋.嵌入式服务器软件接口通信容量调节算法仿真[J].计算机仿真,2024,41(4):265-269.

二级引证文献4

1王健,杨渡佳,黄科举,李小帅,杨俊安.认知电子战发展趋势:从单体智能到群体智能[J].信息对抗技术,2023,2(4):151-170. 被引量：3
2吴镝,李存冰,陈焕新,刘金革.面向政府行业多云管理模式下的多形态应用支撑关键技术与应用[J].信息技术与信息化,2023(9):130-134. 被引量：1
3承楠,傅连浩,王秀程,尹志胜.基于图神经网络的无人机网络表征与优化技术[J].数据采集与处理,2024,39(1):44-59.
4刘磊.宽带电力线通信网络多层信道资源分配方法[J].通信电源技术,2024,41(4):182-184.

1谭威,胡永江,李文广,张小孟.多无人机协同任务规划研究综述[J].微型电脑应用,2021,37(9):189-192. 被引量：10
2强化正向激励深改迎难而上[J].国资报告,2021(8):89-92.
3康锦梅.当一年级的班主任一定要爱心泛滥[J].班主任之友（小学版）（下半月）,2021(6):61-62. 被引量：1
4陈行.新规则视角下的师生关系与家校关系构建[J].湖南教育（D版）,2021(5):16-17.
5辽阳石化实现蒸汽效能最大化[J].石油石化节能,2021,11(9):34-34.
6于凯,郭成光,杨学静,康伟.基于智慧物联体系的配电台区建设[J].农村电气化,2021(11):5-7.
7李峥儿,尚紫微.双加权截断核范数张量填充[J].应用数学进展,2021,10(10):3288-3294.
8杨敏.浅谈学生应如何用教材进行深入学习[J].中学政史地（初中适用）,2021(10):91-93.
9郑岚.多信道通信网络环境下基于节点组簇技术通信资源调度算法[J].山西能源学院学报,2021,34(5):97-99. 被引量：4
10焦博,丛佃伟.导航干扰技术在无人机防御中的应用展望[J].无线电工程,2021,51(10):1019-1024. 被引量：10

西北工业大学学报

2021年第5期

浏览历史

内容加载中请稍等...

基于最大策略熵深度强化学习的通信干扰资源分配方法被引量：10

参考文献4

二级参考文献28

共引文献95

同被引文献98

引证文献10

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于最大策略熵深度强化学习的通信干扰资源分配方法 被引量：10

参考文献4

二级参考文献28

共引文献95

同被引文献98

引证文献10

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于最大策略熵深度强化学习的通信干扰资源分配方法被引量：10