期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于优先级扫描Dyna结构的贝叶斯Q学习方法 被引量:6
1
作者 于俊 刘全 +2 位作者 傅启明 孙洪坤 陈桂兴 《通信学报》 EI CSCD 北大核心 2013年第11期129-139,共11页
贝叶斯Q学习方法使用概率分布来描述Q值的不确定性,并结合Q值分布来选择动作,以达到探索与利用的平衡。然而贝叶斯Q学习存在着收敛速度慢且收敛精度低的问题。针对上述问题,提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法—Dyna-PS-B... 贝叶斯Q学习方法使用概率分布来描述Q值的不确定性,并结合Q值分布来选择动作,以达到探索与利用的平衡。然而贝叶斯Q学习存在着收敛速度慢且收敛精度低的问题。针对上述问题,提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法—Dyna-PS-BayesQL。该方法主要分为2部分:在学习部分,对环境的状态迁移函数及奖赏函数建模,并使用贝叶斯Q学习更新动作值函数的参数;在规划部分,基于建立的模型,使用优先级扫描方法和动态规划方法对动作值函数进行规划更新,以提高对历史经验信息的利用,从而提升方法收敛速度及收敛精度。将Dyna-PS-BayesQL应用于链问题和迷宫导航问题,实验结果表明,该方法能较好地平衡探索与利用,且具有较优的收敛速度及收敛精度。 展开更多
关键词 强化学习 马尔科夫决策过程 优先级扫描 Dyna结构 贝叶斯q学习
下载PDF
基于贝叶斯Q学习的无人机集群抗干扰智能快跳频算法 被引量:4
2
作者 康雅洁 林艳 张一晋 《航天控制》 CSCD 北大核心 2022年第2期73-78,共6页
针对无人机集群抗干扰通信问题,提出了一种以同时实现信息传输速率最大化和跳频开销最小化为目标的智能快跳频算法。首先在传统Q学习基础上,利用近期信息价值增益选择跳频点,再依据对环境的观测信息,并运用矩更新方法修正基于高斯-伽马... 针对无人机集群抗干扰通信问题,提出了一种以同时实现信息传输速率最大化和跳频开销最小化为目标的智能快跳频算法。首先在传统Q学习基础上,利用近期信息价值增益选择跳频点,再依据对环境的观测信息,并运用矩更新方法修正基于高斯-伽马分布模型的Q值,进而实现了对无人机集群快跳频策略性能的提升。仿真结果表明,相较于随机快跳频和基于传统Q学习的智能快跳频算法,所提算法能更快地学习到性能更佳的快跳频策略。 展开更多
关键词 无人机集群 抗干扰通信 快跳频 贝叶斯q学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部