Markov控制过程基于单个样本轨道的在线优化算法被引量：5

On-line optimization algorithm for Markov control processes based on a single sample path

下载PDF

导出

摘要在Markov性能势理论基础上 ,研究了Markov控制过程的性能优化算法 .不同于传统的基于计算的方法 ,文中的算法是根据单个样本轨道的仿真来估计性能指标关于策略参数的梯度 ,以寻找最优 (或次优 )随机平稳策略 .由于可根据不同实际系统的特征来选择适当的算法参数 ,因此它能满足不同实际工程系统在线优化的需要 .最后简要分析了这些算法在一个无限长的样本轨道上以概率 1的收敛性 ,并给出了一个三状态受控Markov过程的数值实例 . Based on the theory of Markov performance potentials, this paper studies a performance optimization algorithm for Markov control processes. Different from the traditional computation-based approaches, this algorithm could estimate the gradients of performance with respect to the policy parameters by simulating a single sample path, and look for an optimal (or suboptimal) randomized stationary policy. The algorithm provided here could satisfy the needs of on-line optimization of many different real-world engineering systems, because we can select suitable parameters in the algorithm according to the properties of a real system. Finally, the convergence of the algorithm with probability one on an infinite sample path is considered, and a numerical example for a three-state controlled Markov chain is provided.

作者唐昊奚宏生殷保群

机构地区中国科学技术大学自动化系

出处《控制理论与应用》 EI CAS CSCD 北大核心 2002年第6期865-871,共7页 Control Theory & Applications

基金国家自然科学基金 (699740 3 7) 国家高性能计算基金 (0 0 2 0 8)资助项目

关键词 MARKOV控制过程单个样本轨道在线优化算法离散事件动态系统随机平稳策略 Markov control processes Markov performance potentials randomized stationary policies on-line optimization

分类号 TP13 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1殷保群,周亚平,杨孝先,奚宏生,孙德敏.状态相关闭排队网络中的性能指标灵敏度公式[J].控制理论与应用,1999,16(2):255-257. 被引量：15
2周亚平,殷保群,奚宏生,谭小彬,孙德敏.一类闭排队网络基于性能势的优化算法[J].中国科学技术大学学报,2000,30(2):151-157. 被引量：8

二级参考文献11

1Cao X R 秦化淑.中国控制会议论文集[M].北京:中国科学技术出版社,1995.22-39.
2Cao X R，IEEE Trans Automat Control，1997年，42卷，10期，1382页
3Cao X R，中国控制会议论文集，1995年，22页
4Cao X R，Realization Probabilities:the Dynamics of Queueing Systems，1994年
5邓永录，随机模型及其应用，1994年
6Cao Xiren，IEEE Trans Automat Control，1997年，42卷，10期，1382页
7Cao Xiren，IEEE Trans Automat Control，1994年，39卷，7期，1460页
8Chong E P，IEEE Trans Automat Control，1994年，37卷，7期，1440页
9孙德敏，工程最优化.方法及应用，1991年，133页
10Yao D D，IEEE Trans Automat Control，1989年，34卷，2期，236页

共引文献18

1YinBaoqun,DaiGuiping,XiHongsheng,YangXiaoxian.RELATIONS BETWEEN PERFORMANCE POTENTIALS AND INFINITESIMAL REALIZATION FACTORS IN CLOSED QUEUEING NETWORKS[J].Applied Mathematics(A Journal of Chinese Universities),2002,17(4):458-464.
2代桂平,殷保群,王肖龙,奚宏生.受控M/G/1排队系统的性能优化及迭代算法[J].系统仿真学报,2004,16(8):1683-1685. 被引量：3
3李衍杰,殷保群,奚宏生,周亚平,代桂平.半Markov过程基于性能势的灵敏度分析和性能优化[J].控制理论与应用,2004,21(6):1032-1035. 被引量：1
4殷保群,李衍杰,奚宏生,周亚平.一类可数Markov控制过程的最优平稳策略[J].控制理论与应用,2005,22(1):43-46. 被引量：1
5代桂平,殷保群,李衍杰,周亚平,奚宏生.半Markov控制过程在平均准则下的优化算法[J].中国科学技术大学学报,2005,35(2):202-207. 被引量：1
6周亚平,刘剑宇,殷保群,奚宏生.半Markov过程性能势的并行仿真估计[J].系统工程,2005,23(12):103-108. 被引量：1
7周亚平,殷保群,奚宏生,谭小彬,孙德敏.一类闭排队网络基于性能势的优化算法[J].中国科学技术大学学报,2000,30(2):151-157. 被引量：8
8殷保群,奚宏生,周亚平.具有相型服务分布的排队系统的性能灵敏度分析[J].运筹学学报,2000,4(4):55-66.
9殷保群,奚宏生,周亚平.M/G/1排队系统的性能灵敏度分析[J].高校应用数学学报（A辑）,2001,1(2):235-242. 被引量：3
10高旭东,殷保群,周亚平,奚宏生.M/PH/1排队系统的性能灵敏度估计与仿真[J].中国科学技术大学学报,2001,31(4):495-501. 被引量：3

同被引文献10

1殷保群,李衍杰,奚宏生,周亚平.一类可数Markov控制过程的最优平稳策略[J].控制理论与应用,2005,22(1):43-46. 被引量：1
2TANGHao YUANJi-Bin LUYang CHENGWen-Juan.Performance Potential-based Neuro-dynamic Programming for SMDPs[J].自动化学报,2005,31(4):642-645. 被引量：10
3韩江洪,郑淑丽,陆阳,魏振春,于筑国.离散事件控制系统规则化描述方法的研究[J].合肥工业大学学报（自然科学版）,2005,28(9):1081-1084. 被引量：11
4Cao X R.Semi-Markov decision problems and performance sensitivity analysis[J].IEEE Trans on Automatic Control,2003,48(5): 758-769.
5Ramadge P J,Wonham W M.The control of discret event system[C]//Proc IEEE on Discrete Event Systems, 1989,77(1 ):81-98.
6王兴富,谷红伟,戴学丰.马尔可夫链在离散事件系统中的应用[J].自动化技术与应用,2000,19(3):35-36. 被引量：2
7奚宏生,唐昊,殷保群.连续时间MCP在紧致行动集上的最优策略(英文)[J].自动化学报,2003,29(2):206-211. 被引量：12
8唐昊,奚宏生,殷保群.Markov控制过程在紧致行动集上的迭代优化算法[J].控制与决策,2003,18(3):267-271. 被引量：5
9TANGHao XIHong-Sheng YINBao-Qun.A Simulation Optimization Algorithm for CTMDPs Based on Randomized Stationary Policies^1）[J].自动化学报,2004,30(2):229-234. 被引量：4
10唐昊,韩江洪,高隽.连续时间Markov控制过程的平均代价最优鲁棒控制策略[J].中国科学技术大学学报,2004,34(2):219-225. 被引量：4

引证文献5

1TANGHao YUANJi-Bin LUYang CHENGWen-Juan.Performance Potential-based Neuro-dynamic Programming for SMDPs[J].自动化学报,2005,31(4):642-645. 被引量：10
2唐昊,周雷,袁继彬.平均和折扣准则MDP基于TD(0)学习的统一NDP方法[J].控制理论与应用,2006,23(2):292-296. 被引量：5
3汪一亭,魏臻.基于Markov模型的离散事件系统稳态与暂态的分析[J].计算机工程与应用,2009,45(3):226-228. 被引量：2
4TANGHao XIHong-Sheng YINBao-Qun.A Simulation Optimization Algorithm for CTMDPs Based on Randomized Stationary Policies^1）[J].自动化学报,2004,30(2):229-234. 被引量：4
5唐昊,韩江洪,高隽.连续时间Markov控制过程的平均代价最优鲁棒控制策略[J].中国科学技术大学学报,2004,34(2):219-225. 被引量：4

二级引证文献20

1唐昊 ,奚宏生 ,韩江洪 ,袁继彬 .具有不确定性路径概率的闭排队网络鲁棒控制策略[J].自动化学报,2005,31(3):446-450. 被引量：2
2TANGHao YUANJi-Bin LUYang CHENGWen-Juan.Performance Potential-based Neuro-dynamic Programming for SMDPs[J].自动化学报,2005,31(4):642-645. 被引量：10
3刘春,唐昊,程文娟.不确定SMDP基于全局优化的鲁棒决策问题[J].系统仿真学报,2005,17(11):2704-2707. 被引量：4
4唐昊,吴玉华,周雷.半Markov决策过程的数值迭代优化[J].吉林大学学报（工学版）,2006,36(1):108-112. 被引量：2
5唐昊,周雷,袁继彬.平均和折扣准则MDP基于TD(0)学习的统一NDP方法[J].控制理论与应用,2006,23(2):292-296. 被引量：5
6代桂平,唐昊,奚宏生.随机平稳策略下半Markov决策过程的仿真优化算法[J].控制理论与应用,2006,23(4):547-551.
7吴玉华,唐昊,周雷.SMDP基于性能势的M步向前策略迭代[J].吉林大学学报（工学版）,2006,36(6):958-962.
8李豹,程文娟,周雷,唐昊.Rollout及其并行求解算法在多类商品库存控制中的应用[J].系统仿真学报,2007,19(17):3883-3887. 被引量：1
9程燕,唐昊,马学森.基于策略迭代和遗传算法的SMDP鲁棒控制策略求解[J].合肥工业大学学报（自然科学版）,2007,30(11):1404-1407. 被引量：1
10唐昊,陈栋,周雷,吴玉华.SMDP基于Actor网络的统一NDP方法[J].控制与决策,2007,22(2):155-159.

1代桂平,唐昊,奚宏生.随机平稳策略下半Markov决策过程的仿真优化算法[J].控制理论与应用,2006,23(4):547-551.
2江琦,路改香,唐昊,谭琦.智能电网弹性响应时间业务需求的接入控制[J].控制与决策,2014,29(7):1311-1315. 被引量：7
3鲍秉坤,殷保群,奚宏生.基于性能势的Markov控制过程双时间尺度仿真算法[J].系统仿真学报,2009,21(13):4114-4119.
4高旭东,殷保群,唐昊,奚宏生.Markov控制过程基于性能势仿真的并行优化[J].系统仿真学报,2003,15(11):1574-1576. 被引量：1
5高乾坤.一种基于ADMM的非光滑损失在线优化算法[J].计算机技术与发展,2014,24(2):96-100. 被引量：1
6TANGHao XIHong-Sheng YINBao-Qun.A Simulation Optimization Algorithm for CTMDPs Based on Randomized Stationary Policies^1）[J].自动化学报,2004,30(2):229-234. 被引量：4
7周亚平,奚宏生,殷保群,孙德敏.Markov控制过程基于性能势的平均代价最优策略[J].自动化学报,2002,28(6):904-910. 被引量：4
8李爱梅,赵明生.基于神经网络的预测控制算法[J].计算机工程与设计,2007,28(24):5931-5934.
9李琪林,王敏毅,姚芸,周明天.一种基于移动Agent的动态计算资源模型的研究[J].计算机研究与发展,2004,41(7):1157-1165.
10周玮,王旭光,张姝红.冷连轧机架间张力设定在线优化算法[J].东北大学学报（自然科学版）,2007,28(6):785-788. 被引量：4

控制理论与应用

2002年第6期

浏览历史

内容加载中请稍等...

Markov控制过程基于单个样本轨道的在线优化算法被引量：5

参考文献2

二级参考文献11

共引文献18

同被引文献10

引证文献5

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

Markov控制过程基于单个样本轨道的在线优化算法 被引量：5

参考文献2

二级参考文献11

共引文献18

同被引文献10

引证文献5

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

Markov控制过程基于单个样本轨道的在线优化算法被引量：5