期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
Variance Optimization for Continuous-Time Markov Decision Processes
1
作者 Yaqing Fu 《Open Journal of Statistics》 2019年第2期181-195,共15页
This paper considers the variance optimization problem of average reward in continuous-time Markov decision process (MDP). It is assumed that the state space is countable and the action space is Borel measurable space... This paper considers the variance optimization problem of average reward in continuous-time Markov decision process (MDP). It is assumed that the state space is countable and the action space is Borel measurable space. The main purpose of this paper is to find the policy with the minimal variance in the deterministic stationary policy space. Unlike the traditional Markov decision process, the cost function in the variance criterion will be affected by future actions. To this end, we convert the variance minimization problem into a standard (MDP) by introducing a concept called pseudo-variance. Further, by giving the policy iterative algorithm of pseudo-variance optimization problem, the optimal policy of the original variance optimization problem is derived, and a sufficient condition for the variance optimal policy is given. Finally, we use an example to illustrate the conclusion of this paper. 展开更多
关键词 CONTINUOUS-TIME markov decision Process Variance optimalITY of average REWARD optimal policy of Variance policy ITERATION
下载PDF
First Passage Models for Denumerable Semi-Markov Decision Processes with Nonnegative Discounted Costs 被引量:2
2
作者 Yong-hui Huang Xian-ping Guo 《Acta Mathematicae Applicatae Sinica》 SCIE CSCD 2011年第2期177-190,共14页
This paper considers a first passage model for discounted semi-Markov decision processes with denumerable states and nonnegative costs. The criterion to be optimized is the expected discounted cost incurred during a f... This paper considers a first passage model for discounted semi-Markov decision processes with denumerable states and nonnegative costs. The criterion to be optimized is the expected discounted cost incurred during a first passage time to a given target set. We first construct a semi-Markov decision process under a given semi-Markov decision kernel and a policy. Then, we prove that the value function satisfies the optimality equation and there exists an optimal (or ε-optimal) stationary policy under suitable conditions by using a minimum nonnegative solution approach. Further we give some properties of optimal policies. In addition, a value iteration algorithm for computing the value function and optimal policies is developed and an example is given. Finally, it is showed that our model is an extension of the first passage models for both discrete-time and continuous-time Markov decision processes. 展开更多
关键词 Semi-markov decision processes target set first passage time discounted cost optimal policy
原文传递
CONVERGENCE OF CONTROLLED MODELS FOR CONTINUOUS-TIME MARKOV DECISION PROCESSES WITH CONSTRAINED AVERAGE CRITERIA
3
作者 Wenzhao Zhang Xianzhu Xiong 《Annals of Applied Mathematics》 2019年第4期449-464,共16页
This paper attempts to study the convergence of optimal values and optimal policies of continuous-time Markov decision processes(CTMDP for short)under the constrained average criteria. For a given original model M_∞o... This paper attempts to study the convergence of optimal values and optimal policies of continuous-time Markov decision processes(CTMDP for short)under the constrained average criteria. For a given original model M_∞of CTMDP with denumerable states and a sequence {M_n} of CTMDP with finite states, we give a new convergence condition to ensure that the optimal values and optimal policies of {M_n} converge to the optimal value and optimal policy of M_∞as the state space Snof Mnconverges to the state space S_∞of M_∞, respectively. The transition rates and cost/reward functions of M_∞are allowed to be unbounded. Our approach can be viewed as a combination method of linear program and Lagrange multipliers. 展开更多
关键词 continuous-time markov decision processes optimal value optimal policies constrained average criteria occupation measures
原文传递
STRONG N-DISCOUNT AND FINITE-HORIZON OPTIMALITY FOR CONTINUOUS-TIME MARKOV DECISION PROCESSES 被引量:1
4
作者 ZHU Quanxin GUO Xianping 《Journal of Systems Science & Complexity》 SCIE EI CSCD 2014年第5期1045-1063,共19页
This paper studies the strong n(n =—1,0)-discount and finite horizon criteria for continuoustime Markov decision processes in Polish spaces.The corresponding transition rates are allowed to be unbounded,and the rewar... This paper studies the strong n(n =—1,0)-discount and finite horizon criteria for continuoustime Markov decision processes in Polish spaces.The corresponding transition rates are allowed to be unbounded,and the reward rates may have neither upper nor lower bounds.Under mild conditions,the authors prove the existence of strong n(n =—1,0)-discount optimal stationary policies by developing two equivalence relations:One is between the standard expected average reward and strong—1-discount optimality,and the other is between the bias and strong 0-discount optimality.The authors also prove the existence of an optimal policy for a finite horizon control problem by developing an interesting characterization of a canonical triplet. 展开更多
关键词 Continuous-time markov decision process expected average reward criterion finite-horizon optimality Polish space strong n-discount optimality
原文传递
TOTAL REWARD CRITERIA FOR UNCONSTRAINED/CONSTRAINED CONTINUOUS-TIME MARKOV DECISION PROCESSES
5
作者 Xianping GUO Lanlan ZHANG 《Journal of Systems Science & Complexity》 SCIE EI CSCD 2011年第3期491-505,共15页
This paper studies denumerable continuous-time Markov decision processes with expected total reward criteria. The authors first study the unconstrained model with possible unbounded transition rates, and give suitable... This paper studies denumerable continuous-time Markov decision processes with expected total reward criteria. The authors first study the unconstrained model with possible unbounded transition rates, and give suitable conditions on the controlled system's primitive data under which the authors show the existence of a solution to the total reward optimality equation and also the existence of an optimal stationary policy. Then, the authors impose a constraint on an expected total cost, and consider the associated constrained model. Basing on the results about the unconstrained model and using the Lagrange multipliers approach, the authors prove the existence of constrained-optimal policies under some additional conditions. Finally, the authors apply the results to controlled queueing systems. 展开更多
关键词 Constrained-optimal policy continuous-time markov decision process optimal policy total reward criterion unbounded reward/cost and transition rates.
原文传递
半Markov决策过程折扣模型与平均模型之间的关系 被引量:1
6
作者 殷保群 李衍杰 +2 位作者 唐昊 代桂平 奚宏生 《控制理论与应用》 EI CAS CSCD 北大核心 2006年第1期65-68,共4页
首先分别在折扣代价与平均代价性能准则下,讨论了一类半M arkov决策问题.基于性能势方法,导出了由最优平稳策略所满足的最优性方程.然后讨论了两种模型之间的关系,表明了平均模型的有关结论,可以通过对折扣模型相应结论取折扣因子趋于... 首先分别在折扣代价与平均代价性能准则下,讨论了一类半M arkov决策问题.基于性能势方法,导出了由最优平稳策略所满足的最优性方程.然后讨论了两种模型之间的关系,表明了平均模型的有关结论,可以通过对折扣模型相应结论取折扣因子趋于零时的极限来得到. 展开更多
关键词 markov决策过程 折扣模型 平均模型 最优性方程 最优平稳策略
下载PDF
一类可数Markov控制过程的最优平稳策略 被引量:1
7
作者 殷保群 李衍杰 +1 位作者 奚宏生 周亚平 《控制理论与应用》 EI CAS CSCD 北大核心 2005年第1期43-46,共4页
研究了一类具有可数状态空间的Markov控制过程在无限水平平均代价准则下的最优平稳策略问题.对此类过程,引入了折扣Poisson方程,运用无穷小矩阵和性能势的基本性质,导出了平均代价模型在紧致行动集上的最优性方程,并证明了其解的一个存... 研究了一类具有可数状态空间的Markov控制过程在无限水平平均代价准则下的最优平稳策略问题.对此类过程,引入了折扣Poisson方程,运用无穷小矩阵和性能势的基本性质,导出了平均代价模型在紧致行动集上的最优性方程,并证明了其解的一个存在性定理. 展开更多
关键词 可数markov控制过程 性能势 平均代价准则 紧致行动集 最优平稳策略
下载PDF
具有平均费用的非平稳Markov决策过程
8
作者 魏力仁 《经济数学》 1995年第1期55-63,共9页
本文研究了在一般状态空间具有平均费用的非平稳Markov决策过程,把在平稳情形用补充的折扣模型的最优方程来建立平均费用的最优方程的结果,推广到非平稳的情形.利用这个结果证明了最优策略的存在性.
关键词 markov决策过程 平均费用准则 最优策略
下载PDF
非一致有界费用MDP的强平均最优性条件
9
作者 肖晴初 谭杭生 《运筹学学报》 CSCD 2010年第1期95-105,共11页
研究可数状态空间任意行动空间非一致性有界费用马氏决策过程(MDP)的强平均最优,给出了使得每个常用的平均最优策略也是强平均最优的条件,并实质性的推广了Cavazos-Cadena和Fernandez-Gaucheran(Math.Meth.Oper.Res.,1996,43:281-300)... 研究可数状态空间任意行动空间非一致性有界费用马氏决策过程(MDP)的强平均最优,给出了使得每个常用的平均最优策略也是强平均最优的条件,并实质性的推广了Cavazos-Cadena和Fernandez-Gaucheran(Math.Meth.Oper.Res.,1996,43:281-300)的主要结果. 展开更多
关键词 运筹学 马氏决策过程(MDP) 强平均费用准则 非一致有界费用 充分条件
下载PDF
非平稳MDP—平均样本轨道最优
10
作者 郭先平 《数学物理学报(A辑)》 CSCD 北大核心 2000年第1期31-35,共5页
作者考虑的是任意状态空间,任意行动空间非平稳MDP的平均样本轨道目标.在弱遍历条件下,用鞅的极限理论,证明了最优马氏策略的存在性,推广了A.Arapostathis,V.Borkar,E.F.Gaucherand,M.Ghosh,S.Marcus[1](1993)的主要... 作者考虑的是任意状态空间,任意行动空间非平稳MDP的平均样本轨道目标.在弱遍历条件下,用鞅的极限理论,证明了最优马氏策略的存在性,推广了A.Arapostathis,V.Borkar,E.F.Gaucherand,M.Ghosh,S.Marcus[1](1993)的主要结果. 展开更多
关键词 马氏决策规划 平均样本轨道目标 非平衡 MDP
下载PDF
报酬无界的平均准则马氏决策过程(英文)
11
作者 胡奇英 《运筹学学报》 CSCD 北大核心 2002年第1期1-8,共8页
本文对可数状态集、非空决策集、报酬无界的平均准则马氏决策过程,提出了一组新的条件,在此条件下存在(ε)最优平稳策略,且当最优不等式中的和有定义时最优不等式也成立.
关键词 马氏决策过程 平均准则最优不等式 无界报酬 非空决策集
下载PDF
受控排队系统的平均最优与约束平均最优 被引量:1
12
作者 张兰兰 郭先平 《控制理论与应用》 EI CAS CSCD 北大核心 2009年第2期139-144,共6页
根据连续时间马尔可夫决策过程的平均准则,给出了一种特殊的马尔可夫决策过程—受控排队系统平均最优以及约束最优的新条件.这个新条件仅使用模型的初始数据,但利用了生灭过程的遍历性理论.可以证明受控排队系统存在平均最优平稳策略与... 根据连续时间马尔可夫决策过程的平均准则,给出了一种特殊的马尔可夫决策过程—受控排队系统平均最优以及约束最优的新条件.这个新条件仅使用模型的初始数据,但利用了生灭过程的遍历性理论.可以证明受控排队系统存在平均最优平稳策略与约束平均最优策略. 展开更多
关键词 连续时间马尔可夫决策过程 平均准则 受控排队系统 平均最优平稳策略 约束平均最优策略
下载PDF
风险概率准则下的非平稳马氏决策过程
13
作者 温馨 徐小雅 郭先平 《应用概率统计》 CSCD 北大核心 2023年第4期589-603,共15页
本文研究一类非平稳离散马氏决策过程的风险概率最小化问题,其中转移概率和奖励函数随时间变化.与现有文献中的期望报酬/成本准则不同,本文考虑最小化系统在首次到达某个目标集之前获得的总报酬未能达到给定利润目标的概率.在合理的假... 本文研究一类非平稳离散马氏决策过程的风险概率最小化问题,其中转移概率和奖励函数随时间变化.与现有文献中的期望报酬/成本准则不同,本文考虑最小化系统在首次到达某个目标集之前获得的总报酬未能达到给定利润目标的概率.在合理的假设条件下,我们建立了相应的最优方程序列,验证了最优风险函数序列是最优方程序列的唯一解,并证明了最优马氏策略的存在性. 展开更多
关键词 非平稳离散马氏决策过程 风险概率准则 最优方程序列 首达时间 最优马氏策略
下载PDF
Polish空间上的折扣马氏过程量子化策略的渐近优化
14
作者 吴晓 孔荫莹 郭圳滨 《数学物理学报(A辑)》 CSCD 北大核心 2022年第2期594-604,共11页
该文研究了Polish空间上、带折扣因子的连续时间马尔可夫决策过程(CTMDPs)的量子化平稳策略的渐近最优性问题.首先,建立了折扣最优方程(DOE)及其解的存在性和唯一性.其次,在适当的条件下证明了最优确定性平稳策略的存在性.此外,为了对... 该文研究了Polish空间上、带折扣因子的连续时间马尔可夫决策过程(CTMDPs)的量子化平稳策略的渐近最优性问题.首先,建立了折扣最优方程(DOE)及其解的存在性和唯一性.其次,在适当的条件下证明了最优确定性平稳策略的存在性.此外,为了对行动空间进行离散化,构造了一列量子化策略,利用有限行动空间的策略来逼近一般(Polish)空间上的折扣CTMDPs最优平稳策略.最后,通过一个例子来说明该文的渐近逼近结果. 展开更多
关键词 连续时间马尔可夫决策过程 依赖状态折扣因子 折扣准则 量子化平稳策略 渐近最优性
下载PDF
半马氏MDP平均模型
15
作者 邱德华 《衡阳师专学报》 1998年第3期1-7,共7页
研究了半马氏MDP平均模型,提出了新的较弱的假设条件,证明了半马氏MDP平均模型最优方程解的存在性,然后从最优方程出发,证明了存在ε(≥0)-最优平稳策略。
关键词 最优方程 最优平稳策略 半马氏MDP模型
下载PDF
Inspection strategies for quality products withrewards in a multi-stage production
16
作者 R.Satheesh Kumar A.Nagarajan 《Journal of Control and Decision》 EI 2023年第4期596-609,共14页
In a multi-stage manufacturing system,defective components are generated due to deteriorating machine parts and failure to install the feed load.In these circumstances,the system requires inspection counters to distin... In a multi-stage manufacturing system,defective components are generated due to deteriorating machine parts and failure to install the feed load.In these circumstances,the system requires inspection counters to distinguish imperfect items and takes a few discreet decisions to produce impeccable items.Whereas the prioritisation of employee appreciation and working on reward is one of the important policies to improve productivity.Here we look at the multistage manufacturing system as an M/PH/1 queue model and rewards are given for using certain inspection strategies to produce the quality items.A matrix analytical method is proposed to explain a continuous-time Markov process in which the reward points are given to the strategy of inspection in each state of the system.By constructing the value functions of this dynamic programming model,we derive the optimal policy and the optimal average reward of the entire system in the long run.In addition,we obtain the percentage of time spent on each system state for the probability of conformity and non-conformity of the product over the long term.The results of our computational experiments and case study suggest that the average reward increases due to the actions are taken at each decision epoch for rework and disposal of the non-conformity items. 展开更多
关键词 Sequential process infinitesimal operator markov decision processes value function optimal policy optimal average reward
原文传递
非平稳MDP平均模型及其滚动式算法 被引量:1
17
作者 郭先平 刘建庸 刘克 《系统科学与数学》 CSCD 北大核心 1999年第4期439-446,共8页
本文考虑可数状态空间非平稳马尔可夫决策过程(MDP)的平均目标.首先,我们指出并改正了Park,et,al[1]和Alden,etal[2]的错误,并在弱于Park,etal[1]的条件下,借助于新建立的最优方程,证... 本文考虑可数状态空间非平稳马尔可夫决策过程(MDP)的平均目标.首先,我们指出并改正了Park,et,al[1]和Alden,etal[2]的错误,并在弱于Park,etal[1]的条件下,借助于新建立的最优方程,证明了最优平均值的收敛性和平均最优马氏策略的存在性.其次,给出了ε(>0)-平均最优马氏策略的滚动式算法. 展开更多
关键词 非平稳MDP 平均目标 马氏决策过程 滚动式算法
原文传递
报酬函数及转移速率族均非一致有界的连续时间折扣马氏决策规划 被引量:2
18
作者 伍从斌 《应用数学学报》 CSCD 北大核心 1997年第2期196-208,共13页
本文首次在报酬函数及转移速率族均非一致有界的条件下,对可数状态空间,可数行动集的连续时间折扣马氏决策规划进行研究.文中引入了一类新的无界报酬函数,在一类新的马氏策略中,讨论了最优策略的存在性及其结构,除证明了在有界报... 本文首次在报酬函数及转移速率族均非一致有界的条件下,对可数状态空间,可数行动集的连续时间折扣马氏决策规划进行研究.文中引入了一类新的无界报酬函数,在一类新的马氏策略中,讨论了最优策略的存在性及其结构,除证明了在有界报酬和一致有界转移速率族下成立的主要结果外,本文还得到一些重要结论. 展开更多
关键词 马氏决策规划 转移速率族 CTMDP 报酬函数
原文传递
非平稳MDP的期望平均准则
19
作者 郭先平 侯振挺 《系统科学与数学》 CSCD 北大核心 1999年第1期123-128,共6页
本文考虑的是非平稳MDP的期望平均准则,在弱遍历条件下,用概率及鞅论的方法证明了。∈(0)-最优马氏策略的存在性,作为特例,较好地解决了Feinberg和Park在1994年提及的开问题.
关键词 马氏决策过程 期望平均准则 非平稳过程
原文传递
非负费用折扣半马氏决策过程 被引量:2
20
作者 黄永辉 郭先平 《数学学报(中文版)》 SCIE CSCD 北大核心 2010年第3期503-514,共12页
本文考虑可数状态非负费用的折扣半马氏决策过程.首先在给定半马氏决策核和策略下构造一个连续时间半马氏决策过程,然后用最小非负解方法证明值函数满足最优方程和存在ε-最优平稳策略,并进一步给出最优策略的存在性条件及其一些性质.最... 本文考虑可数状态非负费用的折扣半马氏决策过程.首先在给定半马氏决策核和策略下构造一个连续时间半马氏决策过程,然后用最小非负解方法证明值函数满足最优方程和存在ε-最优平稳策略,并进一步给出最优策略的存在性条件及其一些性质.最后,给出了值迭代算法和一个数值算例. 展开更多
关键词 半马氏决策过程 折扣费用 最优策略
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部