基于规划步数自适应Dyna-Q的多功能雷达干扰决策方法被引量：2

Multi-function Radar Jamming Decision Method Based on Planning Steps Adaptive Dyna-Q

下载PDF

导出

摘要针对基于强化学习的干扰决策方法存在着收敛速度过慢的问题,在Dyna-Q算法的基础上提出一种规划步数自适应的Dyna-Q干扰决策算法。在保证干扰策略有效性的前提下,提升强化学习算法的收敛速度,使算法能以更快的速度学习到最优干扰策略。实验与仿真结果表明:该算法能实现多功能雷达干扰的实时有效,也可扩展到其他强化学习应用领域,具有一定借鉴价值。 Aiming at the problem of slow convergence speed of jamming decision method based on reinforcement learning, a jamming decision algorithm with selfadaptive planning steps based on Dyna-Q algorithm is proposed. On the premise of ensuring the effectiveness of the jamming strategy, the convergence speed of the reinforcement learning algorithm is improved, so that the algorithm can learn the optimal jamming strategy at a faster speed. The experimental and simulation results show that the algorithm can realize the real-time and effective jamming of multi-function radar, and can also be extended to other reinforcement learning applications, which has a certain reference value.

作者朱霸坤朱卫纲李伟李佳芯杨莹 Zhu Bakun;Zhu Weigang;Li Wei;Li Jiaxin;Yang Ying(Department of Electronic and Optical Engineering,Space Engineering University,Beijing 101416,China)

机构地区航天工程大学电子与光学工程系

出处《兵工自动化》 2022年第7期1-4,共4页 Ordnance Industry Automation

基金复杂电磁环境效应国家重点实验室项目(2020Z0203B)。

关键词多功能雷达干扰决策强化学习 Dyna-Q 自适应 multi-functional radar jamming decision reinforcement learning Dyna-Q selfadaptive

分类号 TN972 [电子电信—信号与信息处理]

引文网络
相关文献

参考文献5

1邢强,贾鑫,朱卫纲.基于Q-学习的智能雷达对抗[J].系统工程与电子技术,2018,40(5):1031-1035. 被引量：29
2李云杰,朱云鹏,高梅国.基于Q-学习算法的认知雷达对抗过程设计[J].北京理工大学学报,2015,35(11):1194-1199. 被引量：32
3孙宏伟,童宁宁,孙富君.基于D-S证据理论的电子干扰模式选择[J].弹箭与制导学报,2003,23(S2):218-220. 被引量：9
4赖中安,周刚峰.矩阵博弈应用于雷达有源干扰策略选择的研究[J].航天电子对抗,2010(5):16-18. 被引量：9
5邢强,朱卫纲,贾鑫,郑光勇.干扰规则库未知条件下的干扰决策[J].系统工程与电子技术,2019,41(2):298-303. 被引量：4

二级参考文献26

1李鸿,吴嗣亮,杨春山.对策论在雷达反干扰作战中的应用[J].现代雷达,2008,30(2):10-12. 被引量：12
2杜春侠,高云,张文.多智能体系统中具有先验知识的Q学习算法[J].清华大学学报（自然科学版）,2005,45(7):981-984. 被引量：21
3高彬,郭庆丰.BP神经网络在电子战效能评估中的应用[J].电光与控制,2007,14(1):69-71. 被引量：21
4王世进,孙晟,周炳海,奚立峰.基于Q-学习的动态单机调度[J].上海交通大学学报,2007,41(8):1227-1232. 被引量：11
5黄玉川,饶妮妮,刘永红,刘斌.博弈论应用于干扰效果动态评估的研究[J].电子科技大学学报,2007,36(5):876-879. 被引量：25
6National Institutes of Health, National Institute of Mental Health (NIMH). Definition of cognition[EB/OL].[2015-05-06].http://science-education.nih.gov/supplements/nih5/Mental/other/glossary.htm.
7Li Husheng, Han Zhu. Dogfight in spectrum:combating primary user emulation attacks in cognitive radio systems-part ii:unknown channel statistics[J]. IEEE Transactions on Wireless Communications, 2011,10(1):274-283.
8Bush R R, Mosteller F. Stochastic models for learning[M]. New York:Wiley,1955.
9Minsky M L. Theory of neural analog reinforcement systems and its application to the brain model problem[D]. New Jersey, USA:Princeton University, 1954.
10Watkins J C H, Dayan P. Q-learning[J]. Machine Learning, 1992,8:279-292.

共引文献47

1任仲友,王素玉,王家素,唐启雪,朱敏,江河.多块YBaCuO高温超导体在永磁轨道上的悬浮力[J].低温与超导,2000,28(2):17-21. 被引量：10
2唐文龙,张剑云,王冰川,赵晓纪,尚鹏.干扰样式选择方法研究[J].现代雷达,2017,39(1):72-76. 被引量：10
3孟祥航,杨巍,邢强.基于SVM的干扰样式选择[J].航天电子对抗,2018,34(5):49-54. 被引量：3
4蔡天一,李丹,赵源.从美国电子战反导技术新动向看导引头抗干扰技术发展趋势[J].飞航导弹,2018(10):79-84. 被引量：3
5杨鸿杰,张君毅.基于强化学习的智能干扰算法研究[J].电子测量技术,2018,41(20):49-54. 被引量：16
6张柏开,朱卫纲.对多功能相控阵雷达干扰决策方法综述[J].兵器装备工程学报,2019,0(9):178-183. 被引量：9
7邢强,贾鑫,朱卫纲.基于Q-学习的智能雷达对抗[J].系统工程与电子技术,2018,40(5):1031-1035. 被引量：29
8李岩,高梅国,崔双洋.认知雷达对抗中的未知雷达状态识别方法[J].太赫兹科学与电子信息学报,2018,16(2):233-238. 被引量：15
9邢强,朱卫纲,贾鑫,郑光勇.干扰规则库未知条件下的干扰决策[J].系统工程与电子技术,2019,41(2):298-303. 被引量：4
10欧健,付东.面向体系对抗的认知电子战发展趋势探析[J].军事运筹与系统工程,2019,33(1):75-80. 被引量：13

同被引文献19

1曹家华,李晨正.电子对抗技术发展综述[J].飞机设计,2023,43(5):59-63. 被引量：1
2秦清,徐毓.低慢小目标多装备协同探测分配问题研究[J].空军雷达学院学报,2012,26(1):28-31. 被引量：15
3张柏开,朱卫纲.对多功能相控阵雷达干扰决策方法综述[J].兵器装备工程学报,2019,0(9):178-183. 被引量：9
4殷宗迪,何平,宋秋冬,朱猛.识别无人机的无人值守光电告警系统[J].飞控与探测,2018,1(3):28-33. 被引量：3
5张柏开,朱卫纲.基于Q-Learning的多功能雷达认知干扰决策方法[J].电讯技术,2020,60(2):129-136. 被引量：16
6张柏开,朱卫纲.对多功能雷达的DQN认知干扰决策方法[J].系统工程与电子技术,2020,42(4):819-825. 被引量：15
7鲁希团,吕慧,荆鹏飞,王健.无人机侦察目标位置拾取器的设计与实现[J].兵器装备工程学报,2020,41(4):138-142. 被引量：1
8张柏开,朱卫纲.MFR认知干扰决策体系构建及关键技术[J].系统工程与电子技术,2020,42(9):1969-1975. 被引量：9
9石文君,刘万锁.人工智能和知识图谱在无人机智能作战中的应用[J].红外,2020,41(8):44-48. 被引量：2
10张云飞,林德福,郑多,程子恒,唐攀.多目标时空同步协同攻击无人机任务分配与轨迹优化[J].兵工学报,2021,42(7):1482-1495. 被引量：10

引证文献2

1黄湘松,查力根,潘大鹏.基于威胁机制-双重深度Q网络的多功能雷达认知干扰决策[J].应用科技,2024,51(4):145-153.
2孙磊,张书绘,何坚强,张春富,辅小荣,夏菽兰.基于粒子群算法的重载无人机地面打击策略[J].软件工程与应用,2022,11(6):1255-1263.

1鲍加迪,李云杰,朱梦韬,张蔚.非理想观测下的多功能雷达工作状态在线切换点检测方法[J].电子学报,2022,50(6):1291-1300. 被引量：2
2利强,张伟,金秋园,姚欣.基于知识原型网络的小样本多功能雷达工作模式识别[J].电子学报,2022,50(6):1344-1350. 被引量：11
3肖庆,李金伟,张敏雄.变频空调主板散热器仿真方法与实验研究[J].日用电器,2022(5):27-33. 被引量：1
4马文军.论产能利用率指标的测度局限与决策制约[J].中国高新科技,2022(6):127-128.
5高健.Dynamo参数化编程在地下综合管廊建模中的应用[J].现代信息科技,2022,6(5):113-117. 被引量：2
6宋佰霖,许华,齐子森,饶宁,彭翔.一种基于深度强化学习的协同通信干扰决策算法[J].电子学报,2022,50(6):1301-1309. 被引量：4
7孙杨慧,陈勇,王少辉,侯乃先,孙建刚.航空发动机可磨耗涂层在不同碰磨场景下的有毒物质产生机理[J].表面技术,2022,51(6):248-254.
8周姝婧,陈凯翔,许强.基于两级卷积神经网络的相控阵雷达行为识别[J].舰船电子对抗,2022,45(3):37-42. 被引量：1
9杨维忠,刘承禹,游世勋,黄光泉,曹宝龙.基于场景欺骗的景象匹配末制导干扰策略[J].应用科技,2022,49(3):37-43.
10陈基亮,孔德明,郝虎,刘国权,仲美玉.石油生产光纤-电导组合探针阵列多分相测井仪研究[J].仪器仪表学报,2022,43(1):239-252. 被引量：2

兵工自动化

2022年第7期

浏览历史

内容加载中请稍等...

基于规划步数自适应Dyna-Q的多功能雷达干扰决策方法被引量：2

参考文献5

二级参考文献26

共引文献47

同被引文献19

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于规划步数自适应Dyna-Q的多功能雷达干扰决策方法 被引量：2

参考文献5

二级参考文献26

共引文献47

同被引文献19

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于规划步数自适应Dyna-Q的多功能雷达干扰决策方法被引量：2