Markov控制过程基于性能势仿真的并行优化被引量：1

Parallel Optimization for Markov Control Processes Based on Performance Potentials Simulation

下载PDF

导出

摘要 Markov控制过程是研究随机离散事件动态系统性能优化问题的一个重要模型,并在许多实际工程问题中有着广泛的应用。在Markov性能势理论的基础上,我们讨论了一类连续时间Markov控制过程在紧致行动集上的性能优化仿真问题。由于实际系统的状态空间往往非常巨大,通常的串行仿真算法,可能耗时过长,也可能由于硬件限制而无法实现,故我们提出了一种基于性能势的并行仿真优化算法,来寻找系统的最优平稳策略。一个仿真实例表明该算法有较好的运行效率。该算法可应用于大规模实际系统的性能优化。 A Markov control process is an important model for performance optimization in stochastic discrete event dynamic systems, and is widely used in many practical engineering problems. Based on the theory of Markov performance potential, the problems of performance optimization simulation for a class of continuous-time Markov control processes are studied. Since the state space of an actual system is often very large, when applying traditional serial simulation algorithms, long time is possibly spent, or it is impossibly realized because of hardware. A parallel simulation optimization algorithm based on performance potentials is proposed to find the optimal stationary policy of a system. A simulation example shows that the algorithm can achieve high speedup. The algorithm can be used in optimization for large-scale practical systems.

作者高旭东殷保群唐昊奚宏生

机构地区中国科学技术大学自动化系

出处《系统仿真学报》 CAS CSCD 2003年第11期1574-1576,共3页 Journal of System Simulation

基金国家自然科学基金(69974037) 安徽省自然科学基金(01042308)

关键词性能势并行仿真算法连续时间Markov控制过程紧致行动集 performance potential parallel simulation algorithm continuous-time Markov control process compact action set

分类号 TP391.9 [自动化与计算机技术—计算机应用技术] O232 [理学—运筹学与控制论]

引文网络
相关文献

参考文献3

1邹长春,周亚平,殷保群,奚宏生,孙德敏.基于性能势理论对闭排队网络进行梯度估计的并行仿真算法[J].中国科学技术大学学报,1999,29(1):21-29. 被引量：9
2曙光信息产业有限公司.曙光2000用户手册[Z].,1998..
3Cao, X R. The relations among potentials, perturbation analysis, and Markov decision processes[J]. Discrete Event Dynamic Systems: Theory and Applications, 1998, 8; 71-78.

二级参考文献9

1Cao X R，IEEE Trans Automat Control，1997年，42卷，1382页
2Dai Liyi，Tan Zizhonged.Proceedings of CWCICIA，1997年，1302页
3Yin Baoqun，Tan Zizhonged.Proceedings of CWCICIA，1997年，1884页
4陈国良，并行算法.设计与分析，1994年
5郑大钟，自动化学报，1992年，18卷，2期，129页
6Ho Y C，Perturbation Analysis Discrete Event Dynamic Systems，1991年
7Heidelberger P，Management Science，1988年，34卷，11期，1281页
8Cao X R，Performance Evaluation，1987年，7卷，31页
9郑大钟,郑应平.离散事件动态系统理论:现状和展望[J].自动化学报,1992,18(2):129-142. 被引量：39

共引文献8

1李衍杰,殷保群,奚宏生,代桂平.一类连续时间Markov链的灵敏度分析和性能优化[J].中国科学技术大学学报,2004,34(6):704-709.
2张虎,殷保群,代桂平,奚宏生.G/M/1排队系统的性能灵敏度分析与仿真[J].系统仿真学报,2005,17(5):1084-1086. 被引量：1
3张文静.关于工程监理承担安全责任问题的思考[J].中国科技信息,2005(16B):92-92. 被引量：3
4周亚平,刘剑宇,殷保群,奚宏生.半Markov过程性能势的并行仿真估计[J].系统工程,2005,23(12):103-108. 被引量：1
5代桂平,殷保群,李衍杰,奚宏生.半Markov控制过程基于性能势仿真的并行优化算法[J].中国科学技术大学学报,2006,36(2):183-186.
6高旭东,殷保群,周亚平,奚宏生.M/PH/1排队系统的性能灵敏度估计与仿真[J].中国科学技术大学学报,2001,31(4):495-501. 被引量：3
7周亚平,奚宏生,殷保群,孙德敏.Markov控制过程基于性能势的平均代价最优策略[J].自动化学报,2002,28(6):904-910. 被引量：4
8周亚平,殷保群,奚宏生,唐昊.一类闭排队网络引入遗忘因子的优化算法研究[J].系统仿真学报,2003,15(3):386-388. 被引量：1

同被引文献9

1代桂平,殷保群,王肖龙,奚宏生.受控M/G/1排队系统的性能优化及迭代算法[J].系统仿真学报,2004,16(8):1683-1685. 被引量：3
2唐昊,周雷,袁继彬.平均和折扣准则MDP基于TD(0)学习的统一NDP方法[J].控制理论与应用,2006,23(2):292-296. 被引量：5
3胡奇英，刘建庸．马尔可夫控制过程引论[M]．西安：西安电子科技大学出版社，2000．
4Bertsekas D P, Tsitsiklis J N.. Neuro-Dynamic Programming [M]. Belmont, MA: Athena Scientific, 1996.
5Bertsekas D P, Tsitsiklis J N, Wu C. Rollout algorithms for combinatorial optimization [J]. Heuristics (S1381-1237), 1997, 3(3): 245-262.
6Bertsekas D P. Differential training of rollout policies [C]//Proc. of the 35^th Allerton Conference on Communication, Control, and Computing. Allerton Park, Ⅲ, 1997.
7Cao X R, Chen H E Perturbation realization, potentials and Sensitivity analysis of Markov processes [J]. IEEE Trans. on Automatic Control (S0018-9286), 1997, 42(10): 1382-1393.
8Cao X R. Single sample path-based optimization of Markov chains [J]. Journai of Optimization Theory and Applications (S0022-3239), 1999, 100(3): 527-548.
9Cao X R. From perturbation analysis to Markov decision processes and reinforcement learning [J]. Discrete Event Dynamic Systems: Theory and Applications (S0924-6703), 2003, 13(1): 9-39.

引证文献1

1李豹,程文娟,周雷,唐昊.Rollout及其并行求解算法在多类商品库存控制中的应用[J].系统仿真学报,2007,19(17):3883-3887. 被引量：1

二级引证文献1

1李豹.多Agent MDPs中并行Rollout学习算法[J].安徽工程大学学报,2014,29(2):75-78.

1唐昊,奚宏生,殷保群.Markov控制过程在紧致行动集上的迭代优化算法[J].控制与决策,2003,18(3):267-271. 被引量：5
2费景高.一类微分代数系统并行仿真算法[J].系统仿真学报,1993,5(2):20-27. 被引量：1
3代桂平,殷保群,李衍杰,奚宏生.半Markov控制过程基于性能势仿真的并行优化算法[J].中国科学技术大学学报,2006,36(2):183-186.
4江琦,路改香,唐昊,谭琦.智能电网弹性响应时间业务需求的接入控制[J].控制与决策,2014,29(7):1311-1315. 被引量：7
5周亚平,奚宏生,殷保群,孙德敏.Markov控制过程基于性能势的平均代价最优策略[J].自动化学报,2002,28(6):904-910. 被引量：4
6殷保群,李衍杰,奚宏生,周亚平.一类可数Markov控制过程的最优平稳策略[J].控制理论与应用,2005,22(1):43-46. 被引量：1
7奚宏生,唐昊,殷保群.连续时间MCP在紧致行动集上的最优策略(英文)[J].自动化学报,2003,29(2):206-211. 被引量：12
8蔡吉淼,汪厚祥.保守PDES中时间管理问题研究[J].计算机工程与设计,2007,28(14):3536-3538. 被引量：3
9代桂平,殷保群,王肖龙,奚宏生.受控M/G/1排队系统的性能优化及迭代算法[J].系统仿真学报,2004,16(8):1683-1685. 被引量：3
10邹长春,周亚平,殷保群,奚宏生,孙德敏.基于性能势理论对闭排队网络进行梯度估计的并行仿真算法[J].中国科学技术大学学报,1999,29(1):21-29. 被引量：9

系统仿真学报

2003年第11期

浏览历史

内容加载中请稍等...

Markov控制过程基于性能势仿真的并行优化被引量：1

参考文献3

二级参考文献9

共引文献8

同被引文献9

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

Markov控制过程基于性能势仿真的并行优化 被引量：1

参考文献3

二级参考文献9

共引文献8

同被引文献9

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

Markov控制过程基于性能势仿真的并行优化被引量：1