基于未来阈值的马尔可夫策略的最优化算法

Algorithm of Markov optimum policy based on future threshold value

下载PDF

导出

摘要在一种新的准则概率阈值准则下讨论马尔可夫决策的最优解的算法问题.在该准则下,采用基于未来阈值的方法,求解马尔可夫最优策略. The arithmetic problem of Markov optimum solution under a new principle named probability threshold value principle is discussed.With this principle,the Markov optimum policy is solved based on the future threshold value.

作者姜峰回钰

机构地区菏泽师范专科学校数理统计系

出处《吉林化工学院学报》 CAS 2004年第2期97-99,共3页 Journal of Jilin Institute of Chemical Technology

关键词 MARKOV决策过程 Markov最优策略概率阈值准则 markov decision processes markov optimum policy probability threshold value

分类号 O212 [理学—概率论与数理统计]

引文网络
相关文献

参考文献5

1Shapley,L.S.Stochastic games[M].Proceedings of the National Academy of Sciences,1953:1095-1100.
2Howard,R.A,.Dynamic Programming and Markov Processes[M],MII Press,Cambridge.1960.
3Blackwell,D.Discrete dynamic programming[J].Ann Math Stat,1962.33:719-726.
4Derman.C,.On Sequential decisions and Markov chains[J].Man.Sci.1962.9:719-726.
5Dynkin,E.B.and Yushkevich,A.A..Controlled Markov Processes[M].Springer-Verlag,New York,1979.

1姜峰,郑兆青.在概率阈值准则下马尔可夫策略的最优化算法[J].山东理工大学学报（自然科学版）,2004,18(1):62-65. 被引量：2
2李江红,胡照文.一类Markov决策过程自适应决策的新方法[J].控制与决策,2001,16(4):415-419.
3周亚清.质量管理中的马尔可夫分析法[J].水利电力机械电子技术,1991,5(3):43-47.
4沈宗宣.N阶段随机多目标决策的解法[J].天津轻工业学院学报,1992(2):43-47.
5曾庆宁.模糊多目标马尔可夫决策[J].桂林电子工业学院学报,1999,19(1):44-47.
6沈晋会.Markov决策过程在矿井通讯系统中的应用[J].煤炭技术,2013,32(11):218-219.
7黄民懿,马琰.平均场随机对策:单调成本函数与门限策略[J].中国科学：数学,2016,46(10):1445-1460.
8周亚平,奚宏生,殷保群,唐昊.连续时间Markov决策过程在呼叫接入控制中的应用[J].控制与决策,2001,16(B11):795-799. 被引量：3
9李江洪,韩正之.有限规划水平自适应Markov决策过程的参数决策[J].应用科学学报,2000,18(4):335-339. 被引量：1
10刘任河,郭光耀.“NCD”系统中保险双方的最优博弈[J].武汉工程大学学报,2008,30(3):124-126.

吉林化工学院学报

2004年第2期

浏览历史

内容加载中请稍等...

基于未来阈值的马尔可夫策略的最优化算法

参考文献5

相关作者

相关机构

相关主题

浏览历史