依赖于历史的折扣半马氏决策规划

Semi-Markov Decision Process with Discount Factors Depend on History

导出

摘要研究无界报酬折扣半马氏决策规划问题．证明了：策略π·＝（π１·，π２·，…πｎ·，π·ｎ＋１，…）是最优策略，则π１·（∞）及（π１·，π２·，…，πｎ·）（∞）对同一折扣因子函数也是最优的，对任给的整数ｎ≥１，在一定的条件下，πｎ·（∞）也是最优的；证明了若最优策略存在，必存在最优平稳策略；证明了ε最优平稳策略的存在性。 This paper discusses the semi-markov decision processes with discount factors depend on history. We show: If the strategy π*= (π·1, π2·, ...,πn·,...) is optimal, then π1·(∞)and (π1·, π2·,...,πn·)(∞) are optimal for any n≥1. Under certain conditions, if π·= (π1,π2,..., πn, ...) is optimal, then π·n(∞) is optimal for any n≥1. There are ε-optimal stationary strategies.

作者张道智

机构地区应用数学系

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 1989年第3期30-39,共10页 Journal of Tsinghua University(Science and Technology)

关键词折扣因子函数最优策略平稳策略 discount factors, optimal strategies, optimal stationary strategies

分类号 O211 [理学—概率论与数理统计]

引文网络
相关文献

参考文献2

1董泽清，中国科学.A，1985年，11期，975页
2董泽清，1981年

1曾庆宁.DMOMDP及其П_m^d与П_S^d优势[J].桂林电子工业学院学报,1989,9(1):18-23.
2曾庆宁.平稳策略类上DMOMDP的求解法[J].桂林电子工业学院学报,1989,9(2):84-89.
3贾让成.折扣半马氏决策模型的矩最优问题[J].工程数学学报,1989,6(3):108-111.
4刘克,刘建庸.向量值半Markov决策规划[J].科学通报,1990,35(18):1364-1367. 被引量：5
5贾让成.字典序下的折扣多目标半马氏决策模型[J].西安电子科技大学学报,1989,16(2):55-63.
6郑少慧.具有平均准则的离散马氏规划——最优平稳策略存在的较弱条件[J].山东矿业学院学报,1989,8(4):95-100.
7曾庆宁.平均多目标马氏决策规划[J].系统工程,1989,7(1):25-32.
8郭先平.MDP平均模型的强最优性[J].湖南师范大学自然科学学报,1996,19(1):21-24.
9颜铁成.多阶段随机规划中的一类可行策略[J].系统工程学报,1995,10(2):41-47. 被引量：4
10贾让成.折扣非时齐半马氏决策规划(Ⅰ)[J].西北师范大学学报（自然科学版）,1989,25(2):13-18.

清华大学学报（自然科学版）

1989年第3期

浏览历史

内容加载中请稍等...

依赖于历史的折扣半马氏决策规划

参考文献2

相关作者

相关机构

相关主题

浏览历史