期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
求解部分可观测马氏决策过程的强化学习算法 被引量:5
1
作者 王学宁 贺汉根 徐昕 《控制与决策》 EI CSCD 北大核心 2004年第11期1263-1266,共4页
针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法——CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来... 针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法——CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来识别混淆状态.将CPnSarsa(λ)算法应用到一些典型的POMDP,最后得到的是最优或近似最优策略.与以往算法相比,该算法的收敛速度有了很大提高. 展开更多
关键词 强化学习 部分可观测Markov决策过程 Sarsa学习 无记忆策略
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部