无界报酬非时齐折扣马氏决策模型

A NON-STATIONARY DISCOUNTED MARKOVIAN DECISION MODEL WITH UNBOUNDED REWARDS

下载PDF

导出

摘要讨论了无界报酬非时齐折扣马氏决策模型，且折扣因子βt依赖于前一阶段所处的状态和采取的行动，从而推广了常数折扣因子的马氏决策模型，在一定的假设下，得到了最优方程，证明了存在ε-最优马氏策略。 In this paper, a non-stationary discounted Markovian Decision model with unbounded rewards is investigated, in which the discount factor β_t is dependent of the state and the action taken before last step of the system, under some assumptions, the optimality equations are established, and the existence of an ε-optimal policy is proved.

作者邱德华

机构地区衡阳师范高等专科学校数学系

出处《衡阳师专学报》 1997年第6期16-22,共7页 Journal of Hengyang Normal University

关键词非时齐折扣马氏决策模型无界报酬最优方程 non-stationary Markovian decision model unbounded reward optimality equation ε-optimal Markovian policy

分类号 O225 [理学—运筹学与控制论]

引文网络
相关文献

1张昇,郭世贞.无界报酬非时齐折扣马氏决策模型[J].应用数学学报,1990,13(3):314-323. 被引量：2
2张升,郭世贞.非时齐折扣马氏决策规划(一)[J].云南大学学报（自然科学版）,1990,12(4):285-292. 被引量：1
3胡奇英.非时齐无界报酬马氏决策规划[J].西安电子科技大学学报,1992,19(1):72-83.
4秦叔明.非时齐MDP向时齐MDP的转化[J].云南工业大学学报,1996,12(2):89-94.
5张升,郭世贞.非时齐折扣马氏决策规划(二)——矩最优准则[J].云南大学学报（自然科学版）,1992,14(1):1-10. 被引量：1
6胡奇英.无界报酬折扣马氏决策规划中的逐次逼近法[J].数理统计与应用概率,1995,10(2):31-37.
7伍从斌.无界报酬折扣半马氏决策模型矩最优策略的结构[J].云南大学学报（自然科学版）,1990,12(4):299-306. 被引量：1
8伍从斌.无界报酬折扣半马氏决策模型矩最优策略的存在性[J].云南大学学报（自然科学版）,1991,13(3):199-206.
9贾让成.离散时间折扣多目标马氏决策模型:加权与字典序准则[J].运筹与管理,1999,8(1):6-9.
10罗成新.关于问题1‖∑W_j(1—e^(-rC_j))的一点注记[J].沈阳师范大学学报（自然科学版）,1998,20(4):1-3.

衡阳师专学报

1997年第6期

浏览历史

内容加载中请稍等...

无界报酬非时齐折扣马氏决策模型

相关作者

相关机构

相关主题

浏览历史