期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
融合动作剔除的深度竞争双Q网络智能干扰决策算法 被引量:1
1
作者 饶宁 许华 宋佰霖 《空军工程大学学报(自然科学版)》 CSCD 北大核心 2021年第4期92-98,共7页
为解决战场通信干扰决策问题,设计了一种融合动作剔除的深度竞争双Q网络智能干扰决策方法。该方法在深度双Q网络框架基础上采用竞争结构的神经网络决策最优干扰动作,并结合优势函数判断各干扰动作的相对优劣,在此基础上引入无效干扰动... 为解决战场通信干扰决策问题,设计了一种融合动作剔除的深度竞争双Q网络智能干扰决策方法。该方法在深度双Q网络框架基础上采用竞争结构的神经网络决策最优干扰动作,并结合优势函数判断各干扰动作的相对优劣,在此基础上引入无效干扰动作剔除机制加快学习最佳干扰策略。当面对未知的通信抗干扰策略时,该方法能学习到较优的干扰策略。仿真结果表明,当敌方通信策略发生变化时,该方法能自适应调整干扰策略,稳健性较强,和已有方法相比可达到更高的干扰成功率,获得更大的干扰效能。 展开更多
关键词 干扰决策 深度双Q网络 竞争网络 干扰动作剔除
下载PDF
融合有效方差置信上界的Q学习智能干扰决策算法 被引量:2
2
作者 饶宁 许华 宋佰霖 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2022年第5期162-170,共9页
为进一步提升基于值函数强化学习的智能干扰决策算法的收敛速度,增强战场决策的有效性,设计了一种融合有效方差置信上界思想的改进Q学习智能通信干扰决策算法。该算法在Q学习算法的框架基础上,利用有效干扰动作的价值方差设置置信区间,... 为进一步提升基于值函数强化学习的智能干扰决策算法的收敛速度,增强战场决策的有效性,设计了一种融合有效方差置信上界思想的改进Q学习智能通信干扰决策算法。该算法在Q学习算法的框架基础上,利用有效干扰动作的价值方差设置置信区间,从干扰动作空间中剔除置信度较低的干扰动作,减少干扰方在未知环境中不必要的探索成本,加快其在干扰动作空间的搜索速度,并同步更新所有干扰动作的价值,进而加速学习最优干扰策略。通过将干扰决策场景建模为马尔科夫决策过程进行仿真实验,所构造的干扰实验结果表明:当通信方使用干扰方未知的干扰躲避策略变更通信波道时,与现有基于强化学习的干扰决策算法相比,该算法在无通信方的先验信息条件下,收敛速度更快,可达到更高的干扰成功率,获得更大的干扰总收益。此外,该算法还适用于“多对多”协同对抗环境,可利用动作剔除方法降低联合干扰动作的空间维度,相同实验条件下,其干扰成功率比传统Q学习决策算法高50%以上。 展开更多
关键词 干扰决策 强化学习 有效方差置信上界 Q学习 干扰动作剔除 马尔科夫决策过程
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部