融合有效方差置信上界的Q学习智能干扰决策算法被引量：2

Q-learning intelligent jamming decision algorithm based on efficient upper confidence bound variance

下载PDF

导出

摘要为进一步提升基于值函数强化学习的智能干扰决策算法的收敛速度,增强战场决策的有效性,设计了一种融合有效方差置信上界思想的改进Q学习智能通信干扰决策算法。该算法在Q学习算法的框架基础上,利用有效干扰动作的价值方差设置置信区间,从干扰动作空间中剔除置信度较低的干扰动作,减少干扰方在未知环境中不必要的探索成本,加快其在干扰动作空间的搜索速度,并同步更新所有干扰动作的价值,进而加速学习最优干扰策略。通过将干扰决策场景建模为马尔科夫决策过程进行仿真实验,所构造的干扰实验结果表明:当通信方使用干扰方未知的干扰躲避策略变更通信波道时,与现有基于强化学习的干扰决策算法相比,该算法在无通信方的先验信息条件下,收敛速度更快,可达到更高的干扰成功率,获得更大的干扰总收益。此外,该算法还适用于“多对多”协同对抗环境,可利用动作剔除方法降低联合干扰动作的空间维度,相同实验条件下,其干扰成功率比传统Q学习决策算法高50%以上。 To further improve the convergence speed of the intelligent jamming decision-making algorithm based on value function in reinforcement learning and enhance its effectiveness,an improved Q-learning intelligent communication jamming decision algorithm was designed integrating the efficient upper confidence bound variance.Based on the framework of Q-learning algorithm,the proposed algorithm utilizes the value variance of effective jamming action to set the confidence interval.It can eliminate the jamming action with low confidence from the jamming action space,reduce the unnecessary exploration cost in the unknown environment,speed up its searching speed in the interference action space,and synchronously update the value of all actions,thus accelerating the optimal strategy learning process.The jamming decision-making scenario was modeled as the Markov decision process for simulation.Results show that when the correspondent used interference avoidance strategy against the jammer to change the communication channel,the proposed algorithm could achieve faster convergence speed,higher jamming success rate,and greater total jamming rewards,under the condition of no prior information,compared with the existing decision-making algorithms based on reinforcement learning.Besides,the algorithm could be applied to the“many-to-many”cooperative countermeasure environment.The action elimination method was used to reduce the dimension of joint jamming action,and the jamming success rate of the proposed algorithm was 50%higher than those of the traditional Q-learning decision algorithms under the same conditions.

作者饶宁许华宋佰霖 RAO Ning;XU Hua;SONG Bailin(Information and Navigation College,Air Force Engineering University,Xi’an 710077,China)

机构地区空军工程大学信息与导航学院

出处《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2022年第5期162-170,共9页 Journal of Harbin Institute of Technology

关键词干扰决策强化学习有效方差置信上界 Q学习干扰动作剔除马尔科夫决策过程 jamming decision-making reinforcement learning efficient upper confidence bound variance Q-learning jamming action elimination Markov decision process

分类号 TN975 [电子电信—信号与信息处理]

引文网络
相关文献

参考文献3

1颛孙少帅,杨俊安,刘辉,黄科举.采用双层强化学习的干扰决策算法[J].西安交通大学学报,2018,52(2):63-69. 被引量：11
2颛孙少帅,杨俊安,刘辉,黄科举.基于正强化学习和正交分解的干扰策略选择算法[J].系统工程与电子技术,2018,40(3):518-525. 被引量：10
3张春磊,杨小牛.认知电子战与认知电子战系统研究[J].中国电子科学研究院学报,2014,9(6):551-555. 被引量：48

二级参考文献14

1张春磊.认知电子战”拉开序幕--DARPA开始开发“智能干扰机”[J].通信电子战.2011(1):16-19.
2DARPA. Notice of Intent to Award Sole Source Contract: Behavioral Learning for Adaptive Electronic Warfare (BLADE) Phase 3 [ R/OL]. (2014-2-19). https:// www. fbo. gov/spg/ODA/DARPA/CMO/DARPA-SN-14- 24/listing. html.
3Barry Manz. Cognition: EW Gets Brainy [ J ]. Journal of Electronic Defense ,2012,35 (10) :32.
4Air Force. Cognitive Jammer [ EB/OL ]. https ://www. fbo. gov. ( 2010-1-20 ).
5ONR. Broad Agency Announcement (BAA) NUMBER 13-005 Electronic Warfare Technology [ R/OL]. (2012- 11-19). https://www, fbo. gov.
6DARPA. Broad Agency AnnouncementCOMMUNICATIONS UNDER EXTREME RFSPECTRUM CONDITIONS (Com- mEx )STRATEGIC TECHNOLOGY OFFICEDARPA-BAA 10-74[R/OL]. (2010-9-10). https://www, fbo. gov.
7Disruptor SRxTM[EB/OL].(201-10-4).Exelis官网.
8RANDALL JANKA. Applying Cognitive Radio Concepts to Next Generation Electronic Warfare[ C ]//2010年度软件无线电会议论文集.
9杨小牛.从软件无线电到认知无线电,走向终极无线电——无线通信发展展望[J].中国电子科学研究院学报,2008,3(1):1-7. 被引量：75
10张春磊,杨小牛.认知电子战初探[J].通信对抗,2013,32(2):1-4. 被引量：35

共引文献60

1姚彦龙,张改虎.关于军用航空认知战的顶层思考[J].飞机设计,2023,43(5):1-4.
2徐源,房超,周羽.从“军事智能化”到“以智取胜”——内涵、机理及其技术实现[J].国防,2019,0(11):67-71. 被引量：3
3石玉美,顾安忠,汪荣顺,鲁雪生.混合制冷剂循环(MRC)液化天然气流程的设备模拟[J].低温与超导,2000,28(2):41-46. 被引量：8
4光晓俐.雷达侦察信号的认知处理技术研究[J].电子科技,2016,29(7):143-146. 被引量：5
5王佩,仇兆扬,祝俊,唐斌.雷达信号侦收自主处理结构分析[J].电子信息对抗技术,2016,31(5):25-29. 被引量：5
6王璐璐,王满喜,曾勇虎,汪连栋.复杂环境下干扰信号优化方法研究[J].电子对抗,2016,0(5):12-15.
7罗金亮,王雷,杨健,陈林.美“电磁频谱战”作战概念解析[J].中国电子科学研究院学报,2016,11(5):474-477. 被引量：11
8黎海涛,李佳宇.同时收发的认知干扰机频谱感知[J].北京工业大学学报,2017,43(4):574-580. 被引量：1
9黄科举,杨俊安,周继航,刘辉.基于多臂赌博机模型的IEEE 802.11 MAC协议认知干扰技术[J].通信对抗,2017,36(2):30-35. 被引量：2
10周华吉,张春磊.认知电子战系统组成及实现途径探究[J].中国电子科学研究院学报,2017,12(5):448-451. 被引量：16

同被引文献18

1颛孙少帅,杨俊安,刘辉,黄科举.采用双层强化学习的干扰决策算法[J].西安交通大学学报,2018,52(2):63-69. 被引量：11
2张新钰,高洪波,赵建辉,周沫.基于深度学习的自动驾驶技术综述[J].清华大学学报（自然科学版）,2018,58(4):438-444. 被引量：104
3杨鸿杰,张君毅.基于强化学习的智能干扰算法研究[J].电子测量技术,2018,41(20):49-54. 被引量：15
4LI Shuang,YAN Yanghui,REN Ju,ZHOU Yuezhi,ZHANG Yaoxue.A Sample-Efficient Actor-Critic Algorithm for Recommendation Diversification[J].Chinese Journal of Electronics,2020,29(1):89-96. 被引量：4
5王猛,李民强,余道洋.基于改进Q学习算法的无人水面艇动态环境路径规划[J].仪表技术,2020(4):17-20. 被引量：3
6公安部发布上半年全国机动车和驾驶人最新数据[J].道路交通管理,2020(8):8-8. 被引量：2
7王丙琛,司怀伟,谭国真.基于深度强化学习的自动驾驶车控制算法研究[J].郑州大学学报（工学版）,2020,41(4):41-45. 被引量：17
8单麒源,张智豪,张耀心,余宗祥.基于SAC算法的矿山应急救援智能车快速避障控制[J].黑龙江科技大学学报,2021,31(1):14-20. 被引量：5
9陈亮,梁宸,张景异,刘韵婷.Actor-Critic框架下一种基于改进DDPG的多智能体强化学习算法[J].控制与决策,2021,36(1):75-82. 被引量：18
10高振海,于桐,孙天骏,王雨蒙.面向无人驾驶的数据采集与分析系统研究综述[J].汽车技术,2021(6):1-11. 被引量：8

引证文献2

1宁强,刘元盛,谢龙洋.基于SAC的自动驾驶车辆控制方法应用[J].计算机工程与应用,2023,59(8):306-314. 被引量：1
2贺兴,任国春,冯智斌,龚玉萍,王路广,朱卓丹.面向动态通信用户数量的多模Q学习干扰策略[J].陆军工程大学学报,2023,2(6):25-30.

二级引证文献1

1张晓莉,郭仕林,刘鼎,宋婉莹.基于改进SAC的倒立摆控制算法研究[J].电子测量技术,2024,47(1):93-100.

1董文涛,李卓,陈昕.基于联邦学习的在线短视频内容分发策略[J].计算机应用,2021,41(6):1551-1556. 被引量：3
2敖天宇,刘全.一种快速收敛的最大置信上界探索方法[J].计算机科学,2022,49(1):298-305.
3方毓恺,贺玉成,杨键泉,周林.混合双工主动窃听系统中的干扰端优化研究[J].信号处理,2021,37(11):2200-2206.
4赵桐,陆满君,张文旭,曲海山,张涛.基于Q学习的捷变频雷达频点跟踪与决策方法[J].制导与引信,2021,42(4):32-38.
5赵梓良,刘洋,李博伦,马力超,张志彦.多智能体动态目标协同搜索策略研究[J].航天电子对抗,2021,37(4):8-12.
6王增.打断睡眠伤血管[J].老同志之友（上半月）,2022(1):59-59.
7张丽.弱电系统等电位接地方式及干扰防护措施[J].科学技术创新,2021(35):179-181. 被引量：3
8龚亮,王庆权,罗红吉.防空导弹武器系统作战效能评估实战化改进模型[J].现代防御技术,2021,49(6):9-15. 被引量：3
9张清博,李云龙,张博,吴长宇,李伟.一种针对组网雷达的突防行动任务规划策略[J].火力与指挥控制,2021,46(12):73-80.
10崔芮华,佟德栓,李泽.基于广义S变换的航空串联电弧故障检测[J].中国电机工程学报,2021,41(23):8241-8249. 被引量：8

哈尔滨工业大学学报

2022年第5期

浏览历史

内容加载中请稍等...

融合有效方差置信上界的Q学习智能干扰决策算法被引量：2

参考文献3

二级参考文献14

共引文献60

同被引文献18

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

融合有效方差置信上界的Q学习智能干扰决策算法 被引量：2

参考文献3

二级参考文献14

共引文献60

同被引文献18

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

融合有效方差置信上界的Q学习智能干扰决策算法被引量：2