时变环境下基于最大期望加权估计的干扰决策方法被引量：2

A Novel Jamming Bandits Based on Maximum Expected Value Weighting Method in Time-varying Environment

下载PDF

导出

摘要认知雷达对抗技术可使干扰系统具有自主学习能力来实现智能干扰决策。现有基于强化学习理论的干扰决策方法难以在实时性要求高、对抗时间受限、雷达策略快变的雷达对抗环境中获得高期望收益。文中基于多臂匪徒决策理论提出了一种时变环境下基于最大期望加权估计的在线干扰决策方法,通过最大期望加权方法提高了对收益最大臂估计正确率,通过学习时间漂移方法使得干扰决策具有对雷达时变环境的适应性。典型时变环境设置的数值仿真表明,该方法具有在时变环境中更高的决策收益和环境时变适应能力。 Cognitive radar countermeasure technology can be exploited by jamming system to make intelligent decision without prior knowledge.Employing existing jamming strategy based on reinforcement learning theory,desirable benefit cannot be obtained in the radar countermeasures environment where real-time response is required,jamming time is limited and radar strategy changes rapidly.Based on multi-armed bandit(MAB)theory,an online intelligent jamming strategy is proposed in this paper using the maximum expected value weighted(MEVW)estimation method and learning-window shifting(LWS)approach,where MEVW can improve the estimation accuracy about maximal benefit arm,and LWS allow jamming to adapt to time-varying environment.Numerical experiments in typical time-varying environments show that the proposed has higher decision benefits and better adaptability than traditional methods.

作者王军叶立诚刘帅韩冬梅 WANG Jun;YE Licheng;LIU Shuai;HAN Dongmei(School of Information Science and Engineering,Harbin Institute of Technology at Weihai,Weihai 264209,China;Shandong New Beiyang Information Technology Co,Ltd,Weihai 264203,China)

机构地区哈尔滨工业大学(威海)信息科学与工程学院山东新北洋信息技术股份有限公司

出处《现代雷达》 CSCD 北大核心 2021年第3期30-36,共7页 Modern Radar

基金国家自然科学基金资助课题(62071144)。

关键词认知雷达对抗时变环境干扰决策多臂匪徒最大期望加权 cognitive radar countermeasure time-varying environment jamming strategy multi-armed bandit maximum expected value weighting

分类号 TN974 [电子电信—信号与信息处理]

引文网络
相关文献

参考文献8

1王沙飞,鲍雁飞,李岩.认知电子战体系结构与技术[J].中国科学：信息科学,2018,48(12):1603-1613. 被引量：61
2汪浩,王峰.强化学习算法在雷达智能抗干扰中的应用[J].现代雷达,2020,42(3):40-44. 被引量：12
3李云杰,朱云鹏,高梅国.基于Q-学习算法的认知雷达对抗过程设计[J].北京理工大学学报,2015,35(11):1194-1199. 被引量：32
4邢强,贾鑫,朱卫纲.基于Q-学习的智能雷达对抗[J].系统工程与电子技术,2018,40(5):1031-1035. 被引量：29
5张柏开,朱卫纲.基于Q-Learning的多功能雷达认知干扰决策方法[J].电讯技术,2020,60(2):129-136. 被引量：16
6颛孙少帅,杨俊安,刘辉,黄科举.采用双层强化学习的干扰决策算法[J].西安交通大学学报,2018,52(2):63-69. 被引量：11
7颛孙少帅,杨俊安,刘辉,黄科举.基于正强化学习和正交分解的干扰策略选择算法[J].系统工程与电子技术,2018,40(3):518-525. 被引量：10
8张柏开,朱卫纲.对多功能雷达的DQN认知干扰决策方法[J].系统工程与电子技术,2020,42(4):819-825. 被引量：15

二级参考文献33

1孙宏伟,童宁宁,孙富君.基于D-S证据理论的电子干扰模式选择[J].弹箭与制导学报,2003,23(S2):218-220. 被引量：9
2杜春侠,高云,张文.多智能体系统中具有先验知识的Q学习算法[J].清华大学学报（自然科学版）,2005,45(7):981-984. 被引量：21
3高彬,郭庆丰.BP神经网络在电子战效能评估中的应用[J].电光与控制,2007,14(1):69-71. 被引量：21
4王世进,孙晟,周炳海,奚立峰.基于Q-学习的动态单机调度[J].上海交通大学学报,2007,41(8):1227-1232. 被引量：11
5National Institutes of Health, National Institute of Mental Health (NIMH). Definition of cognition[EB/OL].[2015-05-06].http://science-education.nih.gov/supplements/nih5/Mental/other/glossary.htm.
6Li Husheng, Han Zhu. Dogfight in spectrum:combating primary user emulation attacks in cognitive radio systems-part ii:unknown channel statistics[J]. IEEE Transactions on Wireless Communications, 2011,10(1):274-283.
7Bush R R, Mosteller F. Stochastic models for learning[M]. New York:Wiley,1955.
8Minsky M L. Theory of neural analog reinforcement systems and its application to the brain model problem[D]. New Jersey, USA:Princeton University, 1954.
9Watkins J C H, Dayan P. Q-learning[J]. Machine Learning, 1992,8:279-292.
10陈凯.对相控阵雷达的智能干扰决策技术研究[J].西安:西安电子科技大学,2012.

共引文献117

1姚富强,朱勇刚,孙艺夫,郭文龙.无线通信“N+1维”内生抗干扰理论与技术[J].Security and Safety,2023,2(3):29-43.
2曹家华,李晨正.电子对抗技术发展综述[J].飞机设计,2023,43(5):59-63. 被引量：1
3姚彦龙,张改虎.关于军用航空认知战的顶层思考[J].飞机设计,2023,43(5):1-4.
4任仲友,王素玉,王家素,唐启雪,朱敏,江河.多块YBaCuO高温超导体在永磁轨道上的悬浮力[J].低温与超导,2000,28(2):17-21. 被引量：10
5石玉美,顾安忠,汪荣顺,鲁雪生.混合制冷剂循环(MRC)液化天然气流程的设备模拟[J].低温与超导,2000,28(2):41-46. 被引量：8
6孟祥航,杨巍,邢强.基于SVM的干扰样式选择[J].航天电子对抗,2018,34(5):49-54. 被引量：3
7蔡天一,李丹,赵源.从美国电子战反导技术新动向看导引头抗干扰技术发展趋势[J].飞航导弹,2018(10):79-84. 被引量：3
8杨鸿杰,张君毅.基于强化学习的智能干扰算法研究[J].电子测量技术,2018,41(20):49-54. 被引量：16
9张柏开,朱卫纲.对多功能相控阵雷达干扰决策方法综述[J].兵器装备工程学报,2019,0(9):178-183. 被引量：9
10邢强,贾鑫,朱卫纲.基于Q-学习的智能雷达对抗[J].系统工程与电子技术,2018,40(5):1031-1035. 被引量：29

同被引文献12

1赖中安,周刚峰.矩阵博弈应用于雷达有源干扰策略选择的研究[J].航天电子对抗,2010(5):16-18. 被引量：9
2罗敏.多功能相控阵雷达发展现状及趋势[J].现代雷达,2011,33(9):14-18. 被引量：38
3王沙飞,鲍雁飞,李岩.认知电子战体系结构与技术[J].中国科学：信息科学,2018,48(12):1603-1613. 被引量：61
4李云杰,朱云鹏,高梅国.基于Q-学习算法的认知雷达对抗过程设计[J].北京理工大学学报,2015,35(11):1194-1199. 被引量：32
5唐文龙,张剑云,王冰川,赵晓纪,尚鹏.干扰样式选择方法研究[J].现代雷达,2017,39(1):72-76. 被引量：10
6张柏开,朱卫纲.对多功能相控阵雷达干扰决策方法综述[J].兵器装备工程学报,2019,0(9):178-183. 被引量：9
7方旖,陈秋菊,潘继飞,毕大平.基于卷积神经网络的多功能雷达行为辨识研究[J].火力与指挥控制,2021,46(1):32-37. 被引量：3
8刘章孟,袁硕,康仕乾.多功能雷达脉冲列的语义编码与模型重建[J].雷达学报（中英文）,2021,10(4):559-570. 被引量：8
9曹兰英,郭明明,罗美方.雷达与电子战的认知博弈[J].雷达科学与技术,2021,19(5):552-557. 被引量：7
10朱霸坤,朱卫纲,李伟,杨莹,高天昊.基于强化学习的雷达干扰决策技术综述[J].电光与控制,2022,29(4):52-58. 被引量：4

引证文献2

1廖艳苹,谢榕浩.基于双层强化学习的多功能雷达认知干扰决策方法[J].应用科技,2023,50(6):56-62. 被引量：1
2徐一波,张剑云,周青松,李志汇.时变对抗环境中基于双层加权估计的雷达干扰决策方法[J].现代雷达,2024,46(4):95-100.

二级引证文献1

1黄湘松,查力根,潘大鹏.基于威胁机制-双重深度Q网络的多功能雷达认知干扰决策[J].应用科技,2024,51(4):145-153.

1何缓,董文锋,耿方志,邹雄.我院雷达对抗原理课程“金课”建设探索[J].空军预警学院学报,2021,35(1):43-45. 被引量：10
2刘松涛,雷震烁,葛杨,温镇铭.电子对抗干扰效果评估技术综述[J].中国电子科学研究院学报,2020,15(4):306-317. 被引量：8
3《电子信息对抗技术》编辑委员会[J].电子信息对抗技术,2021,36(2).
4徐万松.利用形态滤波去ECG基线漂移的简单方法[J].中国医疗器械信息,2019,25(21):33-34. 被引量：2
5张丰麟.风险对冲思维在预测性决策中的运用原则与策略[J].领导科学,2020(23):28-30.
6周逸群,罗建军,王明明.空间机器人抓捕目标后的载荷分配[J].航空学报,2021,42(1):215-226. 被引量：1
7赵凡,金虎.基于GAN的通信干扰波形生成技术[J].系统工程与电子技术,2021,43(4):1080-1088. 被引量：10
8焦建利.高效参加在线活动的5种方法[J].中国信息技术教育,2021(7):15-15.
9张永光.通信对抗体系论[J].电子信息对抗技术,2021,36(2):41-46.
10李永涛,董红波,廖俊勃,余志统.试验鉴定烟幕干扰环境构设系统能力分析[J].光电技术应用,2021,36(1):14-18. 被引量：2

现代雷达

2021年第3期

浏览历史

内容加载中请稍等...

时变环境下基于最大期望加权估计的干扰决策方法被引量：2

参考文献8

二级参考文献33

共引文献117

同被引文献12

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

时变环境下基于最大期望加权估计的干扰决策方法 被引量：2

参考文献8

二级参考文献33

共引文献117

同被引文献12

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

时变环境下基于最大期望加权估计的干扰决策方法被引量：2