基于近端策略优化算法和Mask-TIT网络的多功能雷达干扰决策方法

A Multi⁃functional Radar Jamming Decision Method Based on Proximal Policy Op⁃timization Algorithm and Mask⁃TIT Network

下载PDF

导出

摘要为应对愈加智能的多功能雷达给对抗方带来的挑战,本文提出一种基于近端策略优化(Proximal policy optimization,PPO)算法和Mask?TIT(Mask?Transformer in Transformer)网络的干扰决策方法。首先,从一种现实场景出发,将干扰机与雷达的对抗场景建模为部分可观察马尔可夫决策过程(Partially observable Markov decision process,POMDP),根据雷达工作原理设计了新的状态转移函数和奖励函数,并根据多功能雷达层级模型设计了观测空间。其次,利用Transformer对序列数据的表征能力和雷达干扰样式的特点设计了一种Mask?TIT网络结构,用于构建更强大的Actor?Critic网络架构。最后,使用近端策略优化算法进行优化学习。实验结果表明,该算法较现有方法收敛所需交互数据平均减少25.6%,并且收敛后的方差显著降低。 To cope with the challenges brought by increasingly intelligent multifunctional radars to the opposing side,this paper proposes an jamming decision-making method based on the proximal policy optimization(PPO)algorithm and the Mask-Transformer in Transformer(Mask-TIT)network.Firstly,starting from a realistic scenario,the adversarial scene between the jammer and the radar is modeled as a partially observable Markov decision process(POMDP).A new state transition function and reward function are designed based on the working principles of the radar,and the observation space is designed according to the hierarchy of the multifunctional radar model.Secondly,a Mask-TIT network structure is designed using the Transformer’s representation capacity for sequence data and the characteristics of radar jamming patterns,which is used to build a more powerful Actor-Critic network architecture.Finally,the PPO algorithm is used for optimization learning.Experimental results show that compared with existing methods,the proposed algorithm reduces the average amount of interactive data required for convergence by 25.6%,and the variance after convergence is significantly reduced.

作者娄雨璇孙闽红尹帅 LOU Yuxuan;SUN Minhong;YIN Shuai(School of Communication Engineering,Hangzhou Dianzi University,Hangzhou 310018,China)

机构地区杭州电子科技大学通信工程学院

出处《数据采集与处理》 CSCD 北大核心 2024年第6期1355-1369,共15页 Journal of Data Acquisition and Processing

关键词雷达干扰决策部分可观察马尔可夫决策过程强化学习 TRANSFORMER 近端策略优化 radar jamming decision partially observable Markov decision process(POMDP) reinforcement learning Transformer proximal policy optimization(PPO)

分类号 TN974 [电子电信—信号与信息处理]

引文网络
相关文献

参考文献6

1李云杰,朱云鹏,高梅国.基于Q-学习算法的认知雷达对抗过程设计[J].北京理工大学学报,2015,35(11):1194-1199. 被引量：34
2邢强,贾鑫,朱卫纲.基于Q-学习的智能雷达对抗[J].系统工程与电子技术,2018,40(5):1031-1035. 被引量：31
3张柏开,朱卫纲.对多功能雷达的DQN认知干扰决策方法[J].系统工程与电子技术,2020,42(4):819-825. 被引量：16
4黄星源,李岩屹.基于双Q学习算法的干扰资源分配策略[J].系统仿真学报,2021,33(8):1801-1808. 被引量：9
5邹玮琦,牛朝阳,刘伟,高欧阳,张浩波.基于A3C的多功能雷达认知干扰决策方法[J].系统工程与电子技术,2023,45(1):86-92. 被引量：4
6刘章孟,袁硕,康仕乾.多功能雷达脉冲列的语义编码与模型重建[J].雷达学报（中英文）,2021,10(4):559-570. 被引量：9

二级参考文献25

1孙宏伟,童宁宁,孙富君.基于D-S证据理论的电子干扰模式选择[J].弹箭与制导学报,2003,23(S2):218-220. 被引量：9
2杜春侠,高云,张文.多智能体系统中具有先验知识的Q学习算法[J].清华大学学报（自然科学版）,2005,45(7):981-984. 被引量：21
3高彬,郭庆丰.BP神经网络在电子战效能评估中的应用[J].电光与控制,2007,14(1):69-71. 被引量：21
4王世进,孙晟,周炳海,奚立峰.基于Q-学习的动态单机调度[J].上海交通大学学报,2007,41(8):1227-1232. 被引量：11
5National Institutes of Health, National Institute of Mental Health (NIMH). Definition of cognition[EB/OL].[2015-05-06].http://science-education.nih.gov/supplements/nih5/Mental/other/glossary.htm.
6Li Husheng, Han Zhu. Dogfight in spectrum:combating primary user emulation attacks in cognitive radio systems-part ii:unknown channel statistics[J]. IEEE Transactions on Wireless Communications, 2011,10(1):274-283.
7Bush R R, Mosteller F. Stochastic models for learning[M]. New York:Wiley,1955.
8Minsky M L. Theory of neural analog reinforcement systems and its application to the brain model problem[D]. New Jersey, USA:Princeton University, 1954.
9Watkins J C H, Dayan P. Q-learning[J]. Machine Learning, 1992,8:279-292.
10陈凯.对相控阵雷达的智能干扰决策技术研究[J].西安:西安电子科技大学,2012.

共引文献65

1任仲友,王素玉,王家素,唐启雪,朱敏,江河.多块YBaCuO高温超导体在永磁轨道上的悬浮力[J].低温与超导,2000,28(2):17-21. 被引量：10
2孟祥航,杨巍,邢强.基于SVM的干扰样式选择[J].航天电子对抗,2018,34(5):49-54. 被引量：3
3蔡天一,李丹,赵源.从美国电子战反导技术新动向看导引头抗干扰技术发展趋势[J].飞航导弹,2018(10):79-84. 被引量：3
4杨鸿杰,张君毅.基于强化学习的智能干扰算法研究[J].电子测量技术,2018,41(20):49-54. 被引量：17
5张柏开,朱卫纲.对多功能相控阵雷达干扰决策方法综述[J].兵器装备工程学报,2019,0(9):178-183. 被引量：9
6邢强,贾鑫,朱卫纲.基于Q-学习的智能雷达对抗[J].系统工程与电子技术,2018,40(5):1031-1035. 被引量：31
7李岩,高梅国,崔双洋.认知雷达对抗中的未知雷达状态识别方法[J].太赫兹科学与电子信息学报,2018,16(2):233-238. 被引量：15
8邢强,朱卫纲,贾鑫,郑光勇.干扰规则库未知条件下的干扰决策[J].系统工程与电子技术,2019,41(2):298-303. 被引量：4
9欧健,付东.面向体系对抗的认知电子战发展趋势探析[J].军事运筹与系统工程,2019,33(1):75-80. 被引量：14
10张阳,司光亚,王艳正,刘戎翔.体系对抗条件下认知电子攻击行动建模与仿真[J].中国电子科学研究院学报,2019,14(5):543-552. 被引量：8

1王亦晨,刘雪梅.基于冲突搜索增强深度强化学习的多AGV路径规划方法[J].机电工程技术,2024,53(8):23-27. 被引量：1
2李兴荟.三维探地雷达在公路工程检测与质量管理中的应用分析[J].时代汽车,2024(11):187-189. 被引量：1
3刘旭宏.探析多普勒测速雷达在地铁信号系统中的应用[J].通讯世界,2024,31(5):184-186.
4于傲伟,郭来功,朱洪波.基于改进蚁群算法的机器人全局路径规划[J].黑龙江工业学院学报（综合版）,2024,24(8):147-151.
5牛群,屈静坤,连文泽,邓全,屈恒阔.激光雷达光束的区域特征匹配识别方法[J].光电子,2024,14(2):25-34.
6黄连兵,尹桂松,冻伟东,陈茜,段姝宇.基于有限状态机的航天器异常检测专家系统知识获取方法[J].宇航学报,2024,45(9):1481-1487.
7柳震洋.若干雷达欺骗干扰样式的仿真研究[J].现代信息科技,2024,8(18):16-19.
8高科婕,朱勇刚,张凯,周展阳.资源受限下基于改进Q学习的干扰自适应采样[J].电子信息对抗技术,2024,39(6):26-34.
9Sheng YUE,Yongheng DENG,Guanbo WANG,Ju REN,Yaoxue ZHANG.Federated Offline Reinforcement Learning with Proximal Policy Evaluation[J].Chinese Journal of Electronics,2024,33(6):1360-1372.
10李文哲,李德煦,王志浩,李开明.机载SAR受空/地转发干扰识别特征研究[J].空天预警研究学报,2024,38(5):318-323.

数据采集与处理

2024年第6期

浏览历史

内容加载中请稍等...

基于近端策略优化算法和Mask-TIT网络的多功能雷达干扰决策方法

参考文献6

二级参考文献25

共引文献65

相关作者

相关机构

相关主题

浏览历史