一种融合噪声网络的深度强化学习通信干扰资源分配算法被引量：1

A Deep Reinforcement Learning Communication Jamming Resource Allocation Algorithm Fused with Noise Network

下载PDF

导出

摘要针对传统干扰资源分配算法在处理非线性组合优化问题时需要较完备的先验信息,同时决策维度小,无法满足现代通信对抗要求的问题,该文提出一种融合噪声网络的深度强化学习通信干扰资源分配算法(FNNDRL)。借鉴噪声网络的思想,该算法设计了孪生噪声评估网络,在避免Q值高估的基础上,通过提升评估网络的随机性,保证了训练过程的探索性;基于概率熵的物理意义,设计了基于策略分布熵改进的策略网络损失函数,在最大化累计奖励的同时最大化策略分布熵,避免策略优化过程中收敛到局部最优。仿真结果表明,该算法在解决干扰资源分配问题时优于所对比的平均分配和强化学习方法,同时算法稳定性较高,对高维决策空间适应性强。 To solve the problem that the traditional jamming resource allocation algorithm needs relatively complete prior information when dealing with nonlinear combinatorial optimization problems,and meanwhile,the decision dimension is small,which can not meet the requirements of modern communication countermeasures,a Deep Reinforcement Learning communication jamming resource allocation algorithm Fused with Noise Network(FNNDRL)is proposed.Using the idea of noise network for reference,twin noise evaluation network,which can avoid the overestimation of Q value and improve the randomness of evaluation network to ensure the exploration of training process is designed by the algorithm.Based on the physical significance of the probability entropy,an improved strategy network loss function based on the strategy distribution entropy is designed to maximize the cumulative reward and the strategy distribution entropy to avoid convergence to local optimal in the process of strategy optimization.The simulation results show that the proposed algorithm is superior to the average allocation and reinforcement learning methods in solving the problem of jamming resource allocation.Meanwhile,the algorithm has high stability and strong adaptability to high-dimensional decision space.

作者彭翔许华蒋磊饶宁宋佰霖 PENG Xiang;XU Hua;JIANG Lei;RAO Ning;SONG Bailin(Information and Navigation College,Air Force Engineering University,Xi’an 710077,China)

机构地区空军工程大学信息与导航学院

出处《电子与信息学报》 EI CSCD 北大核心 2023年第3期1043-1054,共12页 Journal of Electronics & Information Technology

关键词干扰资源分配深度强化学习噪声网络策略分布熵 Jamming resource allocation Deep Reinforcement Learning(DRL) Noise network Entropy of strategy distribution

分类号 TN975 [电子电信—信号与信息处理]

引文网络
相关文献

参考文献5

1宗思光,刘涛,梁善永.基于改进遗传算法的干扰资源分配问题研究[J].电光与控制,2018,25(5):41-45. 被引量：12
2李东生,高杨,雍爱霞.基于改进离散布谷鸟算法的干扰资源分配研究[J].电子与信息学报,2016,38(4):899-905. 被引量：23
3黄星源,李岩屹.基于双Q学习算法的干扰资源分配策略[J].系统仿真学报,2021,33(8):1801-1808. 被引量：7
4许华,宋佰霖,蒋磊,饶宁,史蕴豪.一种通信对抗干扰资源分配智能决策算法[J].电子与信息学报,2021,43(11):3086-3095. 被引量：9
5饶宁,许华,齐子森,宋佰霖,史蕴豪.基于最大策略熵深度强化学习的通信干扰资源分配方法[J].西北工业大学学报,2021,39(5):1077-1086. 被引量：10

二级参考文献32

1吕永胜,王树宗,王向伟,王江枫.基于贴近度的雷达干扰资源分配策略研究[J].系统工程与电子技术,2005,27(11):1893-1894. 被引量：36
2李昌锦,陈永光,沈阳,李修和.突防过程的组网雷达干扰资源优化分配[J].火力与指挥控制,2006,31(10):8-10. 被引量：9
3沈阳,陈永光,李修和.基于0-1规划的雷达干扰资源优化分配研究[J].兵工学报,2007,28(5):528-532. 被引量：45
4ZHAI X F and ZHUANG Y.IIGA based algorithm for cooperative jamming resource allocation[C].Asia Pacific Conference on Postgraduate Research,Shanghai,China,2009:368-371.
5XUE Y,ZHUANG Y,NI T Q,et al.One improved genetic algorithm applied in the problem of dynamic jam resource scheduling with multi-objective and multi-constraint[C].IEEE 5th International Conference on Bio-inspired Computing:Theories and Applications,Shanghai,China,2010:708-712.
6YANG X S and DEB S.Cuckoo search via levy flights[C].Proceedings of IEEE World Congress on Nature & Biological Inspired Computing,India,2009:210-214.
7YANG X S and DEB S.Multi objective cuckoo search for design optimization[J].Computers & Operations Research,2011,10(9):1-9.
8ZHENG H Q and ZHOU Y Q.A discrete binary version of cuckoo search for knapsack problems[J].Advances in Information Science and Service Sciences,2012,4(18):331-339.
9OUYANG X X,ZHOU Y Q,LUO Q F,et al.A novel discrete cuckoo search algorithm for spherical traveling salesman problem[J].Applied Mathematical & Information Sciences,2013,7(2):777-784.
10KENNEDY J and EBERHART R C.A discrete version of the particle swarm algorithm[C].IEEE International Conference on Systems,Man,and Cybernetics,Piscataway,1997:4104-4109.

共引文献51

1厉俊,张睿智,沈晓峰.协同压制雷达系统的稳健资源分配方法[J].电子测量技术,2023,46(13):52-58.
2杨文强,郭昊,李勇峰.布谷鸟算法求解组装车间仓储调度优化问题[J].电子测量与仪器学报,2016,30(10):1506-1511. 被引量：6
3郭志明,李长福,姬广振,刘勤,钱云鹏,胡冰甦.改进布谷鸟算法在成败型产品可靠性抽样检验方案设计中的应用研究[J].兵工学报,2017,38(4):758-765. 被引量：3
4李盼池,杨淑云,刘显德,潘俊辉,肖红,曹茂俊.量子衍生布谷鸟搜索算法[J].计算机系统应用,2017,26(9):122-127. 被引量：1
5王晓磊.基于最佳分割目标优化的医学图像分割方法[J].信息技术,2017,41(10):93-98. 被引量：1
6呙鹏程,王星,程嗣怡,王玉冰.应用二次过滤模型的干扰任务分配[J].电讯技术,2018,58(2):178-185. 被引量：3
7欧阳志宏,薛磊,丁锋.对光电精确制导武器的区域电子防空干扰目标分配方法[J].系统工程与电子技术,2018,40(12):2621-2628. 被引量：9
8柳向,李东生,胡瑞.改进遗传算法在协同干扰资源分配中的应用[J].探测与控制学报,2018,40(5):69-75. 被引量：10
9赵忠凯,王鸿.组网雷达协同干扰资源分配模型及算法[J].火力与指挥控制,2019,44(5):85-89. 被引量：7
10张艺瀛,金志刚.求解多峰优化问题的改进布谷鸟算法[J].哈尔滨工业大学学报,2019,51(11):89-99. 被引量：5

同被引文献53

1黎湘,范梅梅.认知雷达及其关键技术研究进展[J].电子学报,2012,40(9):1863-1870. 被引量：77
2王沙飞,鲍雁飞,李岩.认知电子战体系结构与技术[J].中国科学：信息科学,2018,48(12):1603-1613. 被引量：56
3张伟,平殿发,张韫.云模型在雷达干扰资源多目标优化配置中的应用[J].指挥控制与仿真,2014,36(5):39-44. 被引量：5
4张春磊,杨小牛.认知电子战与认知电子战系统研究[J].中国电子科学研究院学报,2014,9(6):551-555. 被引量：48
5周波,戴幻尧,乔会东,崔建岭,刘文钊.基于“OODA环”理论的认知电子战与赛博战探析[J].中国电子科学研究院学报,2014,9(6):556-562. 被引量：19
6王伟,杨俊安,崔琳,刘辉.基于支持向量机的通信干扰效果在线评估算法[J].电子信息对抗技术,2017,32(2):51-57. 被引量：7
7邢强,贾鑫,朱卫纲,张维坤.无人机群组认知电子战概述及关键技术[J].现代防御技术,2017,45(6):173-177. 被引量：8
8颛孙少帅,杨俊安,刘辉,黄科举.未知拓扑无线自组网络多节点干扰决策算法[J].西安交通大学学报,2018,52(6):91-97. 被引量：4
9廖鹰,易卓,胡晓峰.基于深度学习的初级战场态势理解研究[J].指挥与控制学报,2017,3(1):67-71. 被引量：27
10邢强,贾鑫,朱卫纲.基于Q-学习的智能雷达对抗[J].系统工程与电子技术,2018,40(5):1031-1035. 被引量：28

引证文献1

1王健,杨渡佳,黄科举,李小帅,杨俊安.认知电子战发展趋势:从单体智能到群体智能[J].信息对抗技术,2023,2(4):151-170. 被引量：3

二级引证文献3

1闫宽,赵江鸿.基于群体智能算法的羽毛球战术分析与优化研究[J].文体用品与科技,2023(22):187-189.
2崔玉伟,孙雪.作动器故障下的无人机容错控制方法[J].海军航空大学学报,2023,38(6):449-456.
3刘文斌,吉磊,范平志,丁建锋.美军认知电子战关键技术发展方向分析[J].通信技术,2024,57(3):299-308.

1王东山,王璐.顾客期望形成机制及管理策略研究[J].山西财政税务专科学校学报,2022,24(6):35-41.
2郭宝娅,马晨,王浩,代家鹏,何鑫.电力线宽带载波通信的干扰过滤技术分析[J].中文科技期刊数据库（引文版）工程技术,2020(10):0100-0101.
3解慧娟.高校思政课线上线下混合式教学模式的创新优化[J].黑河学院学报,2023,14(1):98-100. 被引量：2
4王传杰,汤斌.上覆压力对湛江组结构性黏土触变性的影响机制[J].科学技术与工程,2023,23(4):1650-1657.
5黄桃英.ICU病人家属共享决策参与能力现状及影响因素分析[J].全科护理,2023,21(9):1285-1288. 被引量：3
6云超,谭志强,蒋攀攀,鲁航,周超.基于分层的一体化通信电台数据采集系统设计[J].计算机测量与控制,2023,31(2):161-166. 被引量：1
7顾嘉豪.离散鲸鱼算法求解拆解序列规划问题[J].计算机系统应用,2022,31(12):335-341.
8胡洪曙,李捷.财政竞争对企业税负不平等的影响[J].中南财经政法大学学报,2023(2):52-64.

电子与信息学报

2023年第3期

浏览历史

内容加载中请稍等...

一种融合噪声网络的深度强化学习通信干扰资源分配算法被引量：1

参考文献5

二级参考文献32

共引文献51

同被引文献53

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种融合噪声网络的深度强化学习通信干扰资源分配算法 被引量：1

参考文献5

二级参考文献32

共引文献51

同被引文献53

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种融合噪声网络的深度强化学习通信干扰资源分配算法被引量：1