期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
非平稳MDP平均模型及其滚动式算法 被引量:1
1
作者 郭先平 刘建庸 刘克 《系统科学与数学》 CSCD 北大核心 1999年第4期439-446,共8页
本文考虑可数状态空间非平稳马尔可夫决策过程(MDP)的平均目标.首先,我们指出并改正了Park,et,al[1]和Alden,etal[2]的错误,并在弱于Park,etal[1]的条件下,借助于新建立的最优方程,证... 本文考虑可数状态空间非平稳马尔可夫决策过程(MDP)的平均目标.首先,我们指出并改正了Park,et,al[1]和Alden,etal[2]的错误,并在弱于Park,etal[1]的条件下,借助于新建立的最优方程,证明了最优平均值的收敛性和平均最优马氏策略的存在性.其次,给出了ε(>0)-平均最优马氏策略的滚动式算法. 展开更多
关键词 非平稳mdp 平均目标 马氏决策过程 滚动式算法
原文传递
非平稳MDP平均模型── 一致最优(G,B)-生成策略的存在性
2
作者 郭先平 《数学学报(中文版)》 SCIE CSCD 北大核心 2000年第2期269-274,共6页
本文考虑的是可数状态空间任意行动空间非平稳MDP平均模型,借鉴于Feinberg E. A(1994)的思想,提出了比马氏策略和 Feinberg E. A的(f,B)-生成策略和更为广泛的(G,B)-生成策略的概念,在... 本文考虑的是可数状态空间任意行动空间非平稳MDP平均模型,借鉴于Feinberg E. A(1994)的思想,提出了比马氏策略和 Feinberg E. A的(f,B)-生成策略和更为广泛的(G,B)-生成策略的概念,在弱遍历条件下,用概率分析的方法,证明了一致最优(G,B)-生成策略的存在性.从而将 Feinberg E. A.(1994)的主要结果推广到非平衡可数状态空间情形. 展开更多
关键词 马氏决策规划 非平稳mdp平均模型 (G B)生成策略
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部