-
题名基于优先级扫描Dyna结构的贝叶斯Q学习方法
被引量:6
- 1
-
-
作者
于俊
刘全
傅启明
孙洪坤
陈桂兴
-
机构
苏州大学计算机科学与技术学院
吉林大学符号计算与知识工程教育部重点实验室
-
出处
《通信学报》
EI
CSCD
北大核心
2013年第11期129-139,共11页
-
基金
国家自然科学基金资助项目(61070223
61103045
+5 种基金
61070122
61272005)
江苏省自然科学基金资助项目(BK2012616)
江苏省高校自然科学研究基金资助项目(09KJA520002
09KJB520012)
吉林大学符号计算与知识工程教育部重点实验室基金资助项目(93K172012K04)~~
-
文摘
贝叶斯Q学习方法使用概率分布来描述Q值的不确定性,并结合Q值分布来选择动作,以达到探索与利用的平衡。然而贝叶斯Q学习存在着收敛速度慢且收敛精度低的问题。针对上述问题,提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法—Dyna-PS-BayesQL。该方法主要分为2部分:在学习部分,对环境的状态迁移函数及奖赏函数建模,并使用贝叶斯Q学习更新动作值函数的参数;在规划部分,基于建立的模型,使用优先级扫描方法和动态规划方法对动作值函数进行规划更新,以提高对历史经验信息的利用,从而提升方法收敛速度及收敛精度。将Dyna-PS-BayesQL应用于链问题和迷宫导航问题,实验结果表明,该方法能较好地平衡探索与利用,且具有较优的收敛速度及收敛精度。
-
关键词
强化学习
马尔科夫决策过程
优先级扫描
Dyna结构
贝叶斯q学习
-
Keywords
reinforcement learning
Markov decision process
prioritized sweeping
Dyiaa architecture
Bayesian qlearning
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于贝叶斯Q学习的无人机集群抗干扰智能快跳频算法
被引量:4
- 2
-
-
作者
康雅洁
林艳
张一晋
-
机构
南京理工大学电子工程与光电技术学院
宇航智能控制技术国家级重点实验室
-
出处
《航天控制》
CSCD
北大核心
2022年第2期73-78,共6页
-
基金
国家自然科学基金(62001225和62071236)
江苏省自然科学青年基金(BK20190454)
中央高校基本科研业务经费(30920021127和30919011227)。
-
文摘
针对无人机集群抗干扰通信问题,提出了一种以同时实现信息传输速率最大化和跳频开销最小化为目标的智能快跳频算法。首先在传统Q学习基础上,利用近期信息价值增益选择跳频点,再依据对环境的观测信息,并运用矩更新方法修正基于高斯-伽马分布模型的Q值,进而实现了对无人机集群快跳频策略性能的提升。仿真结果表明,相较于随机快跳频和基于传统Q学习的智能快跳频算法,所提算法能更快地学习到性能更佳的快跳频策略。
-
关键词
无人机集群
抗干扰通信
快跳频
贝叶斯q学习
-
Keywords
UAV swarm
Anti-jamming communication
Fast frequency hopping
Bayesian q-learning
-
分类号
TN929.52
[电子电信—通信与信息系统]
-