风险概率准则下的非平稳马氏决策过程

Nonstationary Markov Decision Processes with Risk Probability Criteria

下载PDF

导出

摘要本文研究一类非平稳离散马氏决策过程的风险概率最小化问题,其中转移概率和奖励函数随时间变化.与现有文献中的期望报酬/成本准则不同,本文考虑最小化系统在首次到达某个目标集之前获得的总报酬未能达到给定利润目标的概率.在合理的假设条件下,我们建立了相应的最优方程序列,验证了最优风险函数序列是最优方程序列的唯一解,并证明了最优马氏策略的存在性. This paper considers a risk probability minimization problem for nonstationary discrete-time Markov decision processes,in which the transition probabilities and the reward functions depend on time.Different from the expected reward/cost criteria in the existing literature,the optimality performance here is to minimize the probability that the total rewards do not reach a given profit goal until the first passage time to some target set.Under mild reasonable conditions,we establish the corresponding optimality equations,verify that the sequence of the optimal risk functions is the unique solution to the optimality equations,and prove the existence of an optimal Markov policy.

作者温馨徐小雅郭先平 WEN Xin;XU Xiaoya;GUO Xianping(School of Business,Sun Yat-sen University,Guangzhou,510275,China;School of Business Administration,Guangdong University of Finance&Economics,Guangzhou,510320,China;School of Mathematics,Sun Yat-sen University,Guangzhou 510275,China)

机构地区中山大学管理学院广东财经大学工商管理学院中山大学数学学院

出处《应用概率统计》 CSCD 北大核心 2023年第4期589-603,共15页 Chinese Journal of Applied Probability and Statistics

基金 The research was supported by the National Natural Science Foundation of China(Grant Nos.11931018,72101059) Guangdong Natural Science Foundation(Grant No.2020A1515010924).

关键词非平稳离散马氏决策过程风险概率准则最优方程序列首达时间最优马氏策略 nonstationary discrete-time Markov decision process risk probability criterion optimality equations first passage time optimal Markov policy

分类号 O211.62 [理学—概率论与数理统计]

引文网络
相关文献

参考文献2

1HUANG XiangXiang,ZOU XiaoLong,GUO XianPing.A minimization problem of the risk probability in first passage semi-Markov decision processes with loss rates[J].Science China Mathematics,2015,58(9):1923-1938. 被引量：3
2Xin WEN,Hai-feng HUO,Xian-ping GUO.First Passage Risk Probability Minimization for Piecewise Deterministic Markov Decision Processes[J].Acta Mathematicae Applicatae Sinica,2022,38(3):549-567. 被引量：1

二级参考文献4

1GUO XianPing,HERNNDEZ-LERMA Onsimo.New optimality conditions for average-payoff continuous-time Markov games in Polish spaces[J].Science China Mathematics,2011,54(4):793-816. 被引量：2
2ZHANG WenZhao,GUO XianPing.Nonzero-sum games for continuous-time Markov chains with unbounded transition and average payoff rates[J].Science China Mathematics,2012,55(11):2405-2416. 被引量：2
3HUANG XiangXiang,ZOU XiaoLong,GUO XianPing.A minimization problem of the risk probability in first passage semi-Markov decision processes with loss rates[J].Science China Mathematics,2015,58(9):1923-1938. 被引量：3
4Guo-jingWang,Chun-shengZhang,RongWu.Ruin Theory for the Risk Process Described by PDMPs[J].Acta Mathematicae Applicatae Sinica,2003,19(1):59-70. 被引量：2

共引文献2

1Xiao Wu,Xianping Guo.Convergence of Markov decision processes with constraints and state-action dependent discount factors[J].Science China Mathematics,2020,63(1):167-182. 被引量：2
2Xin WEN,Hai-feng HUO,Xian-ping GUO.First Passage Risk Probability Minimization for Piecewise Deterministic Markov Decision Processes[J].Acta Mathematicae Applicatae Sinica,2022,38(3):549-567. 被引量：1

1余镇,樊志华,石宏雨,李志华.基于代理优化算法的水下滑翔机外形优化设计[J].机械强度,2023,45(4):879-886.
2裴洪,司小胜,胡昌华,郑建飞,张建勋,董青.零寿命标签下退化设备剩余寿命预测方法[J].电子学报,2023,51(7):1939-1948.
3刘爱生,邹紫凡.高校教师“网文”创作意愿的影响因素分析——基于计划行为理论框架[J].江汉大学学报（社会科学版）,2023,40(2):92-104. 被引量：1
4胡迎九.当前形势下企业全面预算管理的重要性及对策探究[J].质量与市场,2023(15):85-87. 被引量：1
5罗小淋,陈琳.高环同态的模糊稳定性[J].运筹与模糊学,2023,13(4):3699-3709.
6工藤幸四郎.旭化成社长工藤幸四郎:重新审视价值,结构改革和成长战略并驾齐驱[J].纺织服装周刊,2023(26):35-35.
7孙秋鹏.城郊土地征收中基层政府与村干部的委托代理机制研究[J].常州大学学报（社会科学版）,2023,24(4):62-74.
8高旭东,胡昌华,张建勋,杜党波,喻勇.基于分数布朗运动过程模型的混合随机退化设备剩余寿命预测[J].自动化学报,2023,49(9):1989-2002.
9温鲜,霍海峰.基于半马氏的无限阶段指数效用最优模型[J].应用概率统计,2023,39(4):577-588.

应用概率统计

2023年第4期

浏览历史

内容加载中请稍等...

风险概率准则下的非平稳马氏决策过程

参考文献2

二级参考文献4

共引文献2

相关作者

相关机构

相关主题

浏览历史