连续时间MCP在紧致行动集上的最优策略(英文) 被引量：12

Optimal Policies for a Continuous Time MCP with Compact Action Set

下载PDF

导出

摘要文中研究了一类连续时间Markov控制过程 (CTMCP)无穷水平平均代价性能的最优控制决策问题 .文章采用无穷小生成元和性能势的基本性质 ,直接导出了平均代价模型在紧致行动集上的最优性方程及其解的存在性定理 ,提出了求解ε 最优平稳控制策略的数值迭代算法 ,并给出了这种算法的收敛性证明 .最后通过分析一个数值例子来说明这种方法的应用 . We study optimal policies for a class of continuous-time Markov control processes (CTMCPs) with infinite horizon average-cost criteria. Using the basic properties of infinitesimal generators and performance potentials, we give directly the optimality equation and establish the existence of solutions to this equation for the average-cost model on a compact action set. A fast value iteration algorithm, which leads to an Ε-optimal stationary policy, is proposed and the convergence of this algorithm is studied. Finally, we provide one numerical example to show applications of the proposed method.

作者奚宏生唐昊殷保群

机构地区中国科学技术大学自动化系

出处《自动化学报》 EI CSCD 北大核心 2003年第2期206-211,共6页 Acta Automatica Sinica

基金 NationalNaturalScienceFoundationofP .R .China (6 9974 0 37) NationalHighPerformanceComput ingFoundationofP .R .China(0 0 2 0 8)

关键词 MCP 紧致行动集最优策略性能势平均代价准则数值迭代算法 ε-最优平衡控制策略 Algorithms Iterative methods Mathematical models Optimization Performance Theorem proving

分类号 TP13 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1殷保群,周亚平,杨孝先,奚宏生,孙德敏.状态相关闭排队网络中的性能指标灵敏度公式[J].控制理论与应用,1999,16(2):255-257. 被引量：15
2周亚平,殷保群,奚宏生,谭小彬,孙德敏.一类闭排队网络基于性能势的优化算法[J].中国科学技术大学学报,2000,30(2):151-157. 被引量：8

二级参考文献11

1Cao X R 秦化淑.中国控制会议论文集[M].北京:中国科学技术出版社,1995.22-39.
2Cao X R，IEEE Trans Automat Control，1997年，42卷，10期，1382页
3Cao X R，中国控制会议论文集，1995年，22页
4Cao X R，Realization Probabilities:the Dynamics of Queueing Systems，1994年
5邓永录，随机模型及其应用，1994年
6Cao Xiren，IEEE Trans Automat Control，1997年，42卷，10期，1382页
7Cao Xiren，IEEE Trans Automat Control，1994年，39卷，7期，1460页
8Chong E P，IEEE Trans Automat Control，1994年，37卷，7期，1440页
9孙德敏，工程最优化.方法及应用，1991年，133页
10Yao D D，IEEE Trans Automat Control，1989年，34卷，2期，236页

共引文献18

1YinBaoqun,DaiGuiping,XiHongsheng,YangXiaoxian.RELATIONS BETWEEN PERFORMANCE POTENTIALS AND INFINITESIMAL REALIZATION FACTORS IN CLOSED QUEUEING NETWORKS[J].Applied Mathematics(A Journal of Chinese Universities),2002,17(4):458-464.
2代桂平,殷保群,王肖龙,奚宏生.受控M/G/1排队系统的性能优化及迭代算法[J].系统仿真学报,2004,16(8):1683-1685. 被引量：3
3李衍杰,殷保群,奚宏生,周亚平,代桂平.半Markov过程基于性能势的灵敏度分析和性能优化[J].控制理论与应用,2004,21(6):1032-1035. 被引量：1
4殷保群,李衍杰,奚宏生,周亚平.一类可数Markov控制过程的最优平稳策略[J].控制理论与应用,2005,22(1):43-46. 被引量：1
5代桂平,殷保群,李衍杰,周亚平,奚宏生.半Markov控制过程在平均准则下的优化算法[J].中国科学技术大学学报,2005,35(2):202-207. 被引量：1
6周亚平,刘剑宇,殷保群,奚宏生.半Markov过程性能势的并行仿真估计[J].系统工程,2005,23(12):103-108. 被引量：1
7周亚平,殷保群,奚宏生,谭小彬,孙德敏.一类闭排队网络基于性能势的优化算法[J].中国科学技术大学学报,2000,30(2):151-157. 被引量：8
8殷保群,奚宏生,周亚平.具有相型服务分布的排队系统的性能灵敏度分析[J].运筹学学报,2000,4(4):55-66.
9殷保群,奚宏生,周亚平.M/G/1排队系统的性能灵敏度分析[J].高校应用数学学报（A辑）,2001,1(2):235-242. 被引量：3
10高旭东,殷保群,周亚平,奚宏生.M/PH/1排队系统的性能灵敏度估计与仿真[J].中国科学技术大学学报,2001,31(4):495-501. 被引量：3

同被引文献58

1代桂平,殷保群,李衍杰,周亚平,奚宏生.半Markov控制过程在平均准则下的优化算法[J].中国科学技术大学学报,2005,35(2):202-207. 被引量：1
2TANGHao YUANJi-Bin LUYang CHENGWen-Juan.Performance Potential-based Neuro-dynamic Programming for SMDPs[J].自动化学报,2005,31(4):642-645. 被引量：10
3ARAPOSTATHIS A, BORKAR V S,FERNANDEZ-GAUCHER, et al. Discrete-time controlled Markov processes with average cost criterion: a survey [J]. SIAM J of Control Optimization, 1993,31 (2): 282-344.
4RAUL Montes-de-Oca. The average cost optimality equation for Markov control processes on Borel spaces [ J]. System and Control Letters, 1994,22(5): 351 - 357.
5SENNOT L I. Another set of conditions for average optimality in Markov control processes [ J]. Systems and Control Letters, 1995,23(2):147- 151.
6CAO X R, CHEN H F. Perturbation realization, potentials and sensitivity analysis of Markov processes [ J ]. IEEE Trans on Automatic Control, 1997,42(10): 1382 - 1393.
7CAO X R. The relations among potentials, perturbation analysis, and Markov decision processes [ J ]. Discrete Event Dynamic Systems:Theory and Applications, 1998,8( 1 ): 71 - 78.
8CAO X R. A unified approach to Markov decision problems and performance sensitivity analysis [ J ]. Automatica, 2000, 36 (5): 771 -774.
9YIN Baoqun,ZHOU Yaping,XI Hongsheng,et al. Sensitivity formulas of performance in two-server cyclic queuing networks with phasetype distributed service times [ J]. Int Trans on Operation Research,1999,6(6) :649 - 663.
10CINLAR E. Introduction to Stochastic Processes [M].Englewood Cliffs, NJ: Prentice-hall, 1975.

引证文献12

1殷保群,李衍杰,周亚平,奚宏生.半Markov控制过程在折扣代价准则下的最优平稳策略[J].控制与决策,2004,19(6):691-694. 被引量：1
2李衍杰,殷保群,奚宏生,周亚平,代桂平.半Markov过程基于性能势的灵敏度分析和性能优化[J].控制理论与应用,2004,21(6):1032-1035. 被引量：1
3李衍杰,殷保群,奚宏生,代桂平.一类连续时间Markov链的灵敏度分析和性能优化[J].中国科学技术大学学报,2004,34(6):704-709.
4殷保群,李衍杰,奚宏生,周亚平.一类可数Markov控制过程的最优平稳策略[J].控制理论与应用,2005,22(1):43-46. 被引量：1
5代桂平,殷保群,李衍杰,周亚平,奚宏生.半Markov控制过程在平均准则下的优化算法[J].中国科学技术大学学报,2005,35(2):202-207. 被引量：1
6唐昊 ,奚宏生 ,韩江洪 ,袁继彬 .具有不确定性路径概率的闭排队网络鲁棒控制策略[J].自动化学报,2005,31(3):446-450. 被引量：2
7唐昊,吴玉华,周雷.半Markov决策过程的数值迭代优化[J].吉林大学学报（工学版）,2006,36(1):108-112. 被引量：2
8代桂平,殷保群,李衍杰,奚宏生.半Markov控制过程基于性能势仿真的并行优化算法[J].中国科学技术大学学报,2006,36(2):183-186.
9代桂平,唐昊,奚宏生.随机平稳策略下半Markov决策过程的仿真优化算法[J].控制理论与应用,2006,23(4):547-551.
10唐波,李衍杰,殷保群.连续时间部分可观Markov决策过程的策略梯度估计[J].控制理论与应用,2009,26(7):805-808. 被引量：1

二级引证文献14

1唐昊 ,奚宏生 ,韩江洪 ,袁继彬 .具有不确定性路径概率的闭排队网络鲁棒控制策略[J].自动化学报,2005,31(3):446-450. 被引量：2
2TANGHao YUANJi-Bin LUYang CHENGWen-Juan.Performance Potential-based Neuro-dynamic Programming for SMDPs[J].自动化学报,2005,31(4):642-645. 被引量：10
3刘春,唐昊,程文娟.不确定SMDP基于全局优化的鲁棒决策问题[J].系统仿真学报,2005,17(11):2704-2707. 被引量：4
4代桂平,殷保群,李衍杰,奚宏生.半Markov控制过程基于性能势仿真的并行优化算法[J].中国科学技术大学学报,2006,36(2):183-186.
5殷保群,李衍杰,周亚平,奚宏生.可数半Markov决策过程折扣代价性能优化[J].控制与决策,2006,21(8):933-936.
6代桂平,唐昊,奚宏生.随机平稳策略下半Markov决策过程的仿真优化算法[J].控制理论与应用,2006,23(4):547-551.
7吴玉华,唐昊,周雷.SMDP基于性能势的M步向前策略迭代[J].吉林大学学报（工学版）,2006,36(6):958-962.
8程燕,唐昊,马学森.基于策略迭代和遗传算法的SMDP鲁棒控制策略求解[J].合肥工业大学学报（自然科学版）,2007,30(11):1404-1407. 被引量：1
9汪一亭,魏臻.基于Markov模型的离散事件系统稳态与暂态的分析[J].计算机工程与应用,2009,45(3):226-228. 被引量：2
10程文娟,唐昊,李豹,周雷.一种MDP基于性能势的并行Q学习算法[J].系统仿真学报,2009,21(9):2670-2674.

1唐昊,奚宏生,殷保群.Markov控制过程在紧致行动集上的迭代优化算法[J].控制与决策,2003,18(3):267-271. 被引量：5
2周亚平,奚宏生,殷保群,孙德敏.Markov控制过程基于性能势的平均代价最优策略[J].自动化学报,2002,28(6):904-910. 被引量：4
3代桂平,殷保群,王肖龙,奚宏生.受控M/G/1排队系统的性能优化及迭代算法[J].系统仿真学报,2004,16(8):1683-1685. 被引量：3
4代桂平,殷保群,李衍杰,周亚平,奚宏生.半Markov控制过程在平均准则下的优化算法[J].中国科学技术大学学报,2005,35(2):202-207. 被引量：1
5唐昊,韩江洪,高隽.连续时间Markov控制过程的平均代价最优鲁棒控制策略[J].中国科学技术大学学报,2004,34(2):219-225. 被引量：4
6殷保群,李衍杰,奚宏生,周亚平.一类可数Markov控制过程的最优平稳策略[J].控制理论与应用,2005,22(1):43-46. 被引量：1
7高旭东,殷保群,唐昊,奚宏生.Markov控制过程基于性能势仿真的并行优化[J].系统仿真学报,2003,15(11):1574-1576. 被引量：1
8代桂平,殷保群,李衍杰,奚宏生.半Markov控制过程基于性能势仿真的并行优化算法[J].中国科学技术大学学报,2006,36(2):183-186.
9周亚平,奚宏生,殷保群,孙德敏.一类受控闭排队网络基于性能势的最优性方程[J].控制理论与应用,2002,19(4):521-526. 被引量：3
10唐昊,吴玉华,周雷.半Markov决策过程的数值迭代优化[J].吉林大学学报（工学版）,2006,36(1):108-112. 被引量：2

自动化学报

2003年第2期

浏览历史

内容加载中请稍等...