期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
非平稳MDP平均模型及其滚动式算法
被引量:
1
1
作者
郭先平
刘建庸
刘克
《系统科学与数学》
CSCD
北大核心
1999年第4期439-446,共8页
本文考虑可数状态空间非平稳马尔可夫决策过程(MDP)的平均目标.首先,我们指出并改正了Park,et,al[1]和Alden,etal[2]的错误,并在弱于Park,etal[1]的条件下,借助于新建立的最优方程,证...
本文考虑可数状态空间非平稳马尔可夫决策过程(MDP)的平均目标.首先,我们指出并改正了Park,et,al[1]和Alden,etal[2]的错误,并在弱于Park,etal[1]的条件下,借助于新建立的最优方程,证明了最优平均值的收敛性和平均最优马氏策略的存在性.其次,给出了ε(>0)-平均最优马氏策略的滚动式算法.
展开更多
关键词
非平稳mdp
平均目标
马氏决策过程
滚动式算法
原文传递
非平稳MDP平均模型── 一致最优(G,B)-生成策略的存在性
2
作者
郭先平
《数学学报(中文版)》
SCIE
CSCD
北大核心
2000年第2期269-274,共6页
本文考虑的是可数状态空间任意行动空间非平稳MDP平均模型,借鉴于Feinberg E. A(1994)的思想,提出了比马氏策略和 Feinberg E. A的(f,B)-生成策略和更为广泛的(G,B)-生成策略的概念,在...
本文考虑的是可数状态空间任意行动空间非平稳MDP平均模型,借鉴于Feinberg E. A(1994)的思想,提出了比马氏策略和 Feinberg E. A的(f,B)-生成策略和更为广泛的(G,B)-生成策略的概念,在弱遍历条件下,用概率分析的方法,证明了一致最优(G,B)-生成策略的存在性.从而将 Feinberg E. A.(1994)的主要结果推广到非平衡可数状态空间情形.
展开更多
关键词
马氏决策规划
非平稳mdp
平均模型
(G
B)生成策略
原文传递
题名
非平稳MDP平均模型及其滚动式算法
被引量:
1
1
作者
郭先平
刘建庸
刘克
机构
中山大学数学系
中国科学院应用数学研究所
出处
《系统科学与数学》
CSCD
北大核心
1999年第4期439-446,共8页
基金
国家青年基金
国家自然科学基金
+1 种基金
广东省自然科学基金
亚太运筹中心资助
文摘
本文考虑可数状态空间非平稳马尔可夫决策过程(MDP)的平均目标.首先,我们指出并改正了Park,et,al[1]和Alden,etal[2]的错误,并在弱于Park,etal[1]的条件下,借助于新建立的最优方程,证明了最优平均值的收敛性和平均最优马氏策略的存在性.其次,给出了ε(>0)-平均最优马氏策略的滚动式算法.
关键词
非平稳mdp
平均目标
马氏决策过程
滚动式算法
Keywords
Nonhomogeneous Markov decision processes, average criterion, ε(≥0 )-optimal policies, optimal equation, rolling horizon algorithm.
分类号
O211.62 [理学—概率论与数理统计]
O225 [理学—运筹学与控制论]
原文传递
题名
非平稳MDP平均模型── 一致最优(G,B)-生成策略的存在性
2
作者
郭先平
机构
中山大学数学系广东广州
出处
《数学学报(中文版)》
SCIE
CSCD
北大核心
2000年第2期269-274,共6页
基金
国家自然科学基金
广东省自然科学基金
文摘
本文考虑的是可数状态空间任意行动空间非平稳MDP平均模型,借鉴于Feinberg E. A(1994)的思想,提出了比马氏策略和 Feinberg E. A的(f,B)-生成策略和更为广泛的(G,B)-生成策略的概念,在弱遍历条件下,用概率分析的方法,证明了一致最优(G,B)-生成策略的存在性.从而将 Feinberg E. A.(1994)的主要结果推广到非平衡可数状态空间情形.
关键词
马氏决策规划
非平稳mdp
平均模型
(G
B)生成策略
Keywords
Markov decision programming(
mdp
), Non -stationary, Persistly optimality, (G, B)-generated policy
分类号
O221.5 [理学—运筹学与控制论]
原文传递
题名
作者
出处
发文年
被引量
操作
1
非平稳MDP平均模型及其滚动式算法
郭先平
刘建庸
刘克
《系统科学与数学》
CSCD
北大核心
1999
1
原文传递
2
非平稳MDP平均模型── 一致最优(G,B)-生成策略的存在性
郭先平
《数学学报(中文版)》
SCIE
CSCD
北大核心
2000
0
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部