期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
连续时间Markov决策过程的均值-方差优化问题
1
作者 叶柳儿 黄香香 《中国科学:数学》 CSCD 北大核心 2014年第8期883-898,共16页
本文考虑连续时间Markov决策过程折扣模型的均值-方差优化问题.假设状态空间和行动空间均为Polish空间,转移率和报酬率函数均无界.本文的优化目标是在折扣最优平稳策略类里,选取相应方差最小的策略.本文致力于寻找Polish空间下Markov决... 本文考虑连续时间Markov决策过程折扣模型的均值-方差优化问题.假设状态空间和行动空间均为Polish空间,转移率和报酬率函数均无界.本文的优化目标是在折扣最优平稳策略类里,选取相应方差最小的策略.本文致力于寻找Polish空间下Markov决策过程均值-方差最优策略存在的条件.利用首次进入分解方法,本文证明均值-方差优化问题可以转化为"等价"的期望折扣优化问题,进而得到关于均值-方差优化问题的"最优方程"和均值-方差最优策略的存在性以及它相应的特征.最后,本文给出若干例子说明折扣最优策略的不唯一性和均值-方差最优策略的存在性. 展开更多
关键词 连续时间Markov决策过程 折扣最优化 方差最小 均值-方差最优策略
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部