基于迁移强化学习的无线传感器网络快速抗干扰方案

Fast convergence anti-jamming scheme for WSNs based on transfer reinforcement learning

下载PDF

导出

摘要在动态干扰环境下的多节点无线传感器网络中,随着状态-动作空间的增大,传统强化学习难以收敛.为克服这一问题,本文提出一种基于迁移强化学习的快速抗干扰算法,即将多智能体Q学习和值函数迁移方法相结合.首先,将多节点通信抗干扰问题建模为马尔科夫博弈;然后,引入互模拟关系度量不同状态-动作对之间的相似性;最后,采用多智能体Q学习算法学习抗干扰策略,并在每一步Q值更新后,根据不同状态-动作对之间的相似性进行值函数迁移.仿真结果表明,在分时隙传输的在线抗干扰问题中,所提算法的抗干扰性能显著优于正交跳频法和随机跳频法,在达到相同抗干扰效果时,所需的迭代次数远少于常规Q学习算法. In a multi-node wireless sensor network under dynamic jamming environment,traditional reinforcement learning is difficult to converge with the increase of state-action space.To overcome this disadvantage,in this paper,we propose a fast convergence anti-jamming algorithm based on reinforcement learning.The proposed algorithm combines multi-agent Q-learning with value function transfer.Firstly,the multi node communication anti-jamming problem is modeled as a Markov game.Then,we introduce Bisimulation Relation to measure the similarity between different state action pairs.Finally,the multi-agent Q learning algorithm is used to learn the anti-jamming strategy,and after each step of Q-value updating,the value function is transferred according to the similarity between different state-action pairs.The simulation results show that the anti-jamming performance of the proposed algorithm is significantly better than that of the orthogonal frequency hopping and the random frequency hopping.When the same anti-jamming effect is achieved,the number of iterations required is much less than that of the traditional Q-learning algorithm.

作者周权牛英滔 ZHOU Quan;NIU Yingtao(School of Communication Engineering,Army Engineering University of PLA,Nanjing 210000,China;The 63rd Research Institute,National University of Defense Technology,Nanjing 210000,China)

机构地区陆军工程大学通信工程学院国防科技大学第六十三研究所

出处《电波科学学报》 CSCD 北大核心 2023年第5期816-824,共9页 Chinese Journal of Radio Science

基金国家自然科学基金(U19B2014) 基础加强计划技术领域基金(2019-JCJQ-JJ-212)。

关键词无线通信抗干扰通信迁移学习无线传感器网络(WSN) 多智能体强化学习 wireless communication anti-jamming communication transfer learning wireless sensor network multi-Agent reinforcement learning

分类号 TN973.3 [电子电信—信号与信息处理]

引文网络
相关文献

参考文献1

1陈建平,杨正霞,刘全,吴宏杰,徐杨,傅启明.基于值函数迁移的启发式Sarsa算法[J].通信学报,2018,39(8):37-47. 被引量：2

二级参考文献2

1傅启明,刘全,伏玉琛,周谊成,于俊.一种高斯过程的带参近似策略迭代算法[J].软件学报,2013,24(11):2676-2686. 被引量：4
2傅启明,刘全,尤树华,黄蔚,章晓芳.一种新的基于值函数迁移的快速Sarsa算法[J].电子学报,2014,42(11):2157-2161. 被引量：3

共引文献1

1钱信,吕成伊,宋世杰.基于优化Q-learning算法的机器人路径规划[J].南昌大学学报（工科版）,2022,44(4):396-401. 被引量：3

1秦思娜,何松涛,辜怡然,李天晨,王萌.面向抗干扰通信的智能反射面被动波束赋形设计[J].通信技术,2023,56(6):703-707.
2肖亮,陈顺,王烁华,吕泽芳,杨和林.面向数字孪生的智能无线通信抗干扰技术[J].移动通信,2023,47(6):8-13. 被引量：5
3邓炳光,徐成义,张泰,孙远欣,张蔺,裴二荣.基于多智能体深度强化学习的D2D通信资源联合分配方法[J].电子与信息学报,2023,45(4):1173-1182. 被引量：2
4楼洋明,金梁.基于可重构智能表面的单天线盲抗干扰方案[J].信息工程大学学报,2023,24(4):406-414.
5朱礼勇.卫星移动通信系统抗干扰研究[J].无线互联科技,2023,20(12):134-138.
6王英杰,袁利,汤亮,黄煌,耿远卓.信息非完备下多航天器轨道博弈强化学习方法[J].宇航学报,2023,44(10):1522-1533. 被引量：1
7平安,张悟移,杜春澎,何治学,韩正涛.随机环境下惩罚和奖励对任务型团队演化的影响[J].系统科学与数学,2023,43(10):2503-2524.
8黄泓毓,梁永胜,付胜豪,吴靓浩,唐岚.基于多智能体强化学习的机场飞机滑行智能调度方法[J].指挥信息系统与技术,2023,14(5):30-36.
9刘芳,李成旺,贡胜男.复杂环境下的DSSS信号抗均匀频谱干扰研究[J].沈阳理工大学学报,2023,42(5):29-32.
10吴彩莲,朱爱玲.阻尼板振动方程的紧致差分方法[J].高等学校计算数学学报,2023,45(2):144-163.

电波科学学报

2023年第5期

浏览历史

内容加载中请稍等...

基于迁移强化学习的无线传感器网络快速抗干扰方案

参考文献1

二级参考文献2

共引文献1

相关作者

相关机构

相关主题

浏览历史