半Markov控制过程在平均准则下的优化算法被引量：1

Optimization Algorithms for Semi-Markov Control Processes With Average Criteria

下载PDF

导出

摘要研究了一类半Markov控制过程(SMCP)在紧致行动集上关于无限水平平均代价准则的性能优化算法.利用等价Markov过程的方法,导出了SMCP的性能势公式和平均代价最优性方程,给出了求解最优或次最优平稳策略的策略迭代算法和数值迭代算法,并证明了算法的收敛性.最后给出了一个数值例子来说明算法的应用. Optimization algorithms are studied for a class of semi-Markov control processes (SMCPs) with infinite horizon average-cost criteria and compact action sets. By the equivalent Markov process, formulas of performance potentials and average-cost optimality equations for SMCPs are derived, and a policy iteration algorithm and a value iteration algorithm are proposed, which can lead to an optimal or suboptimal stationary policy in a finite number of iterations. The convergence of these algorithms is established, without the assumption of the corresponding iteration operator being an sp-contraction. A numerical example is provided to illustrate the application of the algorithms.

作者代桂平殷保群李衍杰周亚平奚宏生

机构地区中国科学技术大学自动化系中国科学技术大学管理科学系

出处《中国科学技术大学学报》 CAS CSCD 北大核心 2005年第2期202-207,共6页 JUSTC

基金国家自然科学基金(60274012) 安徽省自然科学基金(01042308)资助项目.

关键词半Markov控制过程紧致行动集性能势策略迭代数值迭代 semi-Markov control processes compact action set performance potentials policy iteration value iteration

分类号 TP202 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献14

1殷保群,周亚平,杨孝先,奚宏生,孙德敏.状态相关闭排队网络中的性能指标灵敏度公式[J].控制理论与应用,1999,16(2):255-257. 被引量：15
2Yin B Q,Xi H S,Zhou Y PI Sensitivity analysis ofpPerform-ance in queueing systems with Phase-Type service distributions[J].运筹学学报,2000,4(4):55—62.
3Guo X P,Lin K,A note On optimality conditions for ContinuoumTime markov decision processes with average cost criterion[J].IEEE Transactions On Automation Control,2001,46(12):1 984—1 989.
4Guo X P, Perndndez-Lerma O. Continoustime controlled Markov chains[J]. Ann. Appl. Probab. , 2001,13:363-388.
5奚宏生,唐昊,殷保群.连续时间MCP在紧致行动集上的最优策略(英文)[J].自动化学报,2003,29(2):206-211. 被引量：12
6胡奇英刘建墉.马尔可夫决策过程引论[M].西安:西安电子科技大学出版社,2001..
7Howard R.Semi—Markovian decision processes[J].Bull.Inst.Intcernat.Statist,1963,40:625—652.
8Jewell W S.Markov renewal programming Ⅰ and Ⅱ[J].Operat.Res.,1963,2:938—971.
9Ross S M, Applied Probability Models with Optimization Applications [M].San Francso:Holden-Day,1971.
10Beutler F J,Ross K W.Uniformization for Semi-Markov decision processes under stationary policies[J].J Appl.Prob.,1987,24:644—656.

二级参考文献7

1Cao X R 秦化淑.中国控制会议论文集[M].北京:中国科学技术出版社,1995.22-39.
2Cao X R，IEEE Trans Automat Control，1997年，42卷，10期，1382页
3Cao X R，中国控制会议论文集，1995年，22页
4Cao X R，Realization Probabilities:the Dynamics of Queueing Systems，1994年
5邓永录，随机模型及其应用，1994年
6殷保群,周亚平,杨孝先,奚宏生,孙德敏.状态相关闭排队网络中的性能指标灵敏度公式[J].控制理论与应用,1999,16(2):255-257. 被引量：15
7周亚平,殷保群,奚宏生,谭小彬,孙德敏.一类闭排队网络基于性能势的优化算法[J].中国科学技术大学学报,2000,30(2):151-157. 被引量：8

共引文献25

1YinBaoqun,DaiGuiping,XiHongsheng,YangXiaoxian.RELATIONS BETWEEN PERFORMANCE POTENTIALS AND INFINITESIMAL REALIZATION FACTORS IN CLOSED QUEUEING NETWORKS[J].Applied Mathematics(A Journal of Chinese Universities),2002,17(4):458-464.
2殷保群,李衍杰,周亚平,奚宏生.半Markov控制过程在折扣代价准则下的最优平稳策略[J].控制与决策,2004,19(6):691-694. 被引量：1
3李衍杰,殷保群,奚宏生,周亚平,代桂平.半Markov过程基于性能势的灵敏度分析和性能优化[J].控制理论与应用,2004,21(6):1032-1035. 被引量：1
4李衍杰,殷保群,奚宏生,代桂平.一类连续时间Markov链的灵敏度分析和性能优化[J].中国科学技术大学学报,2004,34(6):704-709.
5殷保群,李衍杰,奚宏生,周亚平.一类可数Markov控制过程的最优平稳策略[J].控制理论与应用,2005,22(1):43-46. 被引量：1
6唐昊 ,奚宏生 ,韩江洪 ,袁继彬 .具有不确定性路径概率的闭排队网络鲁棒控制策略[J].自动化学报,2005,31(3):446-450. 被引量：2
7唐昊,吴玉华,周雷.半Markov决策过程的数值迭代优化[J].吉林大学学报（工学版）,2006,36(1):108-112. 被引量：2
8代桂平,殷保群,李衍杰,奚宏生.半Markov控制过程基于性能势仿真的并行优化算法[J].中国科学技术大学学报,2006,36(2):183-186.
9代桂平,唐昊,奚宏生.随机平稳策略下半Markov决策过程的仿真优化算法[J].控制理论与应用,2006,23(4):547-551.
10程燕,唐昊,马学森.基于策略迭代和遗传算法的SMDP鲁棒控制策略求解[J].合肥工业大学学报（自然科学版）,2007,30(11):1404-1407. 被引量：1

同被引文献4

1Cinlar E.Introduction to Stochastic Processes[M].Englewood Cliffs,New Jersey:Prentice-Hall,Inc.,1975.
2曙光信息产业有限公司.曙光2000用户手册[Z].1998.
3邹长春,周亚平,殷保群,奚宏生,孙德敏.基于性能势理论对闭排队网络进行梯度估计的并行仿真算法[J].中国科学技术大学学报,1999,29(1):21-29. 被引量：9
4奚宏生,唐昊,殷保群.连续时间MCP在紧致行动集上的最优策略(英文)[J].自动化学报,2003,29(2):206-211. 被引量：12

引证文献1

1代桂平,殷保群,李衍杰,奚宏生.半Markov控制过程基于性能势仿真的并行优化算法[J].中国科学技术大学学报,2006,36(2):183-186.

1代桂平,殷保群,李衍杰,奚宏生.半Markov控制过程基于性能势仿真的并行优化算法[J].中国科学技术大学学报,2006,36(2):183-186.
2唐昊,奚宏生,殷保群.Markov控制过程在紧致行动集上的迭代优化算法[J].控制与决策,2003,18(3):267-271. 被引量：5
3奚宏生,唐昊,殷保群.连续时间MCP在紧致行动集上的最优策略(英文)[J].自动化学报,2003,29(2):206-211. 被引量：12
4代桂平,殷保群,王肖龙,奚宏生.受控M/G/1排队系统的性能优化及迭代算法[J].系统仿真学报,2004,16(8):1683-1685. 被引量：3
5殷保群,李衍杰,奚宏生,周亚平.一类可数Markov控制过程的最优平稳策略[J].控制理论与应用,2005,22(1):43-46. 被引量：1
6周亚平,奚宏生,殷保群,孙德敏.Markov控制过程基于性能势的平均代价最优策略[J].自动化学报,2002,28(6):904-910. 被引量：4
7唐昊,吴玉华,周雷.半Markov决策过程的数值迭代优化[J].吉林大学学报（工学版）,2006,36(1):108-112. 被引量：2
8殷保群,李衍杰,唐昊,代桂平,奚宏生.半Markov决策过程折扣模型与平均模型之间的关系[J].控制理论与应用,2006,23(1):65-68. 被引量：1
9江琦,奚宏生,殷保群.动态电源管理超时策略自适应优化算法[J].控制与决策,2008,23(4):372-377. 被引量：3
10李衍杰,殷保群,奚宏生,代桂平.一类连续时间Markov链的灵敏度分析和性能优化[J].中国科学技术大学学报,2004,34(6):704-709.

中国科学技术大学学报

2005年第2期

浏览历史

内容加载中请稍等...

半Markov控制过程在平均准则下的优化算法被引量：1

参考文献14

二级参考文献7

共引文献25

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

半Markov控制过程在平均准则下的优化算法 被引量：1

参考文献14

二级参考文献7

共引文献25

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

半Markov控制过程在平均准则下的优化算法被引量：1