期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于马氏决策向量过程模型的有限阶段期望总报酬准则及其最优方程 被引量:2
1
作者 陈杰 刘再明 邢灵博 《数学理论与应用》 2011年第4期7-13,共7页
在马氏决策向量过程模型的理论基础上,结合决策向量和相合度等新定义,进一步提出有限阶段期望总报酬准则和最优方程,并证明最优方程的解的存在性.
关键词 马氏决策向量过程模型 报酬准则 最优方程 存在性
下载PDF
马氏决策向量过程模型的性质及其优越性定理
2
作者 陈杰 邢灵博 《数学理论与应用》 2013年第1期94-99,共6页
本文研究马尔可夫决策向量过程的性质,并证明其优越性定理.
关键词 马氏决策向量过程模型 报酬准则 最优方程 优越性定理
下载PDF
可变折扣马氏决策过程首达模型列的收敛问题
3
作者 吴晓 郭圳滨 《应用概率统计》 CSCD 北大核心 2021年第6期598-610,共13页
本文主要研究了可数状态空间上带多约束、可变折扣马氏决策过程首达模型序列的收敛问题.利用``占有测度''及其相关性质,将受约束首达模型序列的优化问题转化为等价的受约束线性规划问题(凸分析方法),在合适条件下证明了首达模... 本文主要研究了可数状态空间上带多约束、可变折扣马氏决策过程首达模型序列的收敛问题.利用``占有测度''及其相关性质,将受约束首达模型序列的优化问题转化为等价的受约束线性规划问题(凸分析方法),在合适条件下证明了首达模型序列的最优值和最优策略收敛于``极限''模型的最优值和最优策略. 展开更多
关键词 马氏决策过程首达模型 多约束 依赖状态折扣因子 凸分析方法 收敛问题
下载PDF
历史相依决策模型的建立及相应过程的构造 被引量:1
4
作者 莫晓云 周杰明 金芳 《湖南师范大学自然科学学报》 CAS 北大核心 2017年第5期88-94,共7页
历史相依决策模型(HDDM)及历史相依决策过程(HDDP)是决策模型及相应的决策过程的一般情形.马氏决策模型(MDM)及马氏决策过程(MDP)是HDDM及HDDP的特殊情形.本文严格地建立了历史相依决策模型,并证明了相应的历史相依决策过程的存在性,证... 历史相依决策模型(HDDM)及历史相依决策过程(HDDP)是决策模型及相应的决策过程的一般情形.马氏决策模型(MDM)及马氏决策过程(MDP)是HDDM及HDDP的特殊情形.本文严格地建立了历史相依决策模型,并证明了相应的历史相依决策过程的存在性,证明是构造性的.作为HDDM及HDDP的特殊情形,建立了马氏决策模型(MDM),并构造了相应的马氏决策过程(MDP). 展开更多
关键词 历史相依决策模型的建立 历史相依决策过程的存在性和构造 马氏决策模型马氏决策过程 马氏过程
下载PDF
高速铁路列车运行调整的模型及其策略优化方法 被引量:25
5
作者 庄河 何世伟 戴杨铖 《中国铁道科学》 EI CAS CSCD 北大核心 2017年第2期118-126,共9页
在分析高速铁路列车运行调整决策特点的基础上,针对高速铁路列车运行调整的传统优化模型在求解效率方面存在的问题,以相邻且存在冲突列车所在的位置为状态,行车调度员可采取的调整措施为行动,列车加权总晚点时间为调度员采取行动所获得... 在分析高速铁路列车运行调整决策特点的基础上,针对高速铁路列车运行调整的传统优化模型在求解效率方面存在的问题,以相邻且存在冲突列车所在的位置为状态,行车调度员可采取的调整措施为行动,列车加权总晚点时间为调度员采取行动所获得的报酬,构建高速铁路列车运行调整的马氏决策过程模型;分析高速铁路列车运行调整决策过程最优策略的结构,给出采取列车顺晚开行和越行调整等行动的最优策略条件,基于列车的越行矩阵、到开时刻矩阵、最小停站时间矩阵和区间标准运行时间矩阵的定义,采用极大加代数和矩阵推算列车到发时刻,并据此设计模型求解的策略优化方法。结合某高速铁路区段的实例计算结果表明:给出的模型和策略优化方法能取得较人工调整方法更好的优化效果,较数学模型优化方法可提高求解效率,从而验证了高速铁路列车运行调整的马氏决策过程模型和策略优化方法的有效性。 展开更多
关键词 高速铁路 列车运行调整 策略优化方法 马氏决策过程模型 极大加代数 矩阵方法
下载PDF
TOTAL REWARD CRITERIA FOR UNCONSTRAINED/CONSTRAINED CONTINUOUS-TIME MARKOV DECISION PROCESSES
6
作者 Xianping GUO Lanlan ZHANG 《Journal of Systems Science & Complexity》 SCIE EI CSCD 2011年第3期491-505,共15页
This paper studies denumerable continuous-time Markov decision processes with expected total reward criteria. The authors first study the unconstrained model with possible unbounded transition rates, and give suitable... This paper studies denumerable continuous-time Markov decision processes with expected total reward criteria. The authors first study the unconstrained model with possible unbounded transition rates, and give suitable conditions on the controlled system's primitive data under which the authors show the existence of a solution to the total reward optimality equation and also the existence of an optimal stationary policy. Then, the authors impose a constraint on an expected total cost, and consider the associated constrained model. Basing on the results about the unconstrained model and using the Lagrange multipliers approach, the authors prove the existence of constrained-optimal policies under some additional conditions. Finally, the authors apply the results to controlled queueing systems. 展开更多
关键词 Constrained-optimal policy continuous-time Markov decision process optimal policy total reward criterion unbounded reward/cost and transition rates.
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部