期刊文献+
共找到50篇文章
< 1 2 3 >
每页显示 20 50 100
Variance minimization for continuous-time Markov decision processes: two approaches 被引量:1
1
作者 ZHU Quan-xin 《Applied Mathematics(A Journal of Chinese Universities)》 SCIE CSCD 2010年第4期400-410,共11页
This paper studies the limit average variance criterion for continuous-time Markov decision processes in Polish spaces. Based on two approaches, this paper proves not only the existence of solutions to the variance mi... This paper studies the limit average variance criterion for continuous-time Markov decision processes in Polish spaces. Based on two approaches, this paper proves not only the existence of solutions to the variance minimization optimality equation and the existence of a variance minimal policy that is canonical, but also the existence of solutions to the two variance minimization optimality inequalities and the existence of a variance minimal policy which may not be canonical. An example is given to illustrate all of our conditions. 展开更多
关键词 continuous-time markov decision process Polish space variance minimization optimality equation optimality inequality.
下载PDF
Variance Optimization for Continuous-Time Markov Decision Processes
2
作者 Yaqing Fu 《Open Journal of Statistics》 2019年第2期181-195,共15页
This paper considers the variance optimization problem of average reward in continuous-time Markov decision process (MDP). It is assumed that the state space is countable and the action space is Borel measurable space... This paper considers the variance optimization problem of average reward in continuous-time Markov decision process (MDP). It is assumed that the state space is countable and the action space is Borel measurable space. The main purpose of this paper is to find the policy with the minimal variance in the deterministic stationary policy space. Unlike the traditional Markov decision process, the cost function in the variance criterion will be affected by future actions. To this end, we convert the variance minimization problem into a standard (MDP) by introducing a concept called pseudo-variance. Further, by giving the policy iterative algorithm of pseudo-variance optimization problem, the optimal policy of the original variance optimization problem is derived, and a sufficient condition for the variance optimal policy is given. Finally, we use an example to illustrate the conclusion of this paper. 展开更多
关键词 continuous-TIME markov decision process Variance OPTIMALITY of Average REWARD Optimal POLICY of Variance POLICY ITERATION
下载PDF
考虑综合性能最优的非短视快速天基雷达多目标跟踪资源调度算法
3
作者 王增福 杨广宇 金术玲 《雷达学报(中英文)》 EI CSCD 北大核心 2024年第1期253-269,共17页
合理有效的资源调度是天基雷达效能得以充分发挥的关键。针对天基雷达多目标跟踪资源调度问题,建立了综合考虑目标威胁度、跟踪精度与低截获概率(LPI)的代价函数;考虑目标的不确定、天基平台约束以及长远期期望代价,建立了多约束下的基... 合理有效的资源调度是天基雷达效能得以充分发挥的关键。针对天基雷达多目标跟踪资源调度问题,建立了综合考虑目标威胁度、跟踪精度与低截获概率(LPI)的代价函数;考虑目标的不确定、天基平台约束以及长远期期望代价,建立了多约束下的基于部分可观测的马尔可夫决策过程(POMDP)的资源调度模型;采用拉格朗日松弛法将多约束下的多目标跟踪资源调度问题转换分解为多个无约束的子问题;针对连续状态空间、连续动作空间及连续观测空间引起的维数灾难问题,采用基于蒙特卡罗树搜索(MCTS)的在线POMDP算法—POMCPOW算法进行求解,最终提出了一种综合多指标性能的非短视快速天基雷达多目标跟踪资源调度算法。仿真表明,与已有调度算法相比,所提算法资源分配更合理,系统性能更优。 展开更多
关键词 天基雷达 资源调度 多目标跟踪 部分可观测的马尔可夫决策过程 蒙特卡罗树搜索(MCTS)
下载PDF
基于距离信息的追逃策略:信念状态连续随机博弈 被引量:1
4
作者 陈灵敏 冯宇 李永强 《自动化学报》 EI CAS CSCD 北大核心 2024年第4期828-840,共13页
追逃问题的研究在对抗、追踪以及搜查等领域极具现实意义.借助连续随机博弈与马尔科夫决策过程(Markov decision process, MDP),研究使用测量距离求解多对一追逃问题的最优策略.在此追逃问题中,追捕群体仅领导者可测量与逃逸者间的相对... 追逃问题的研究在对抗、追踪以及搜查等领域极具现实意义.借助连续随机博弈与马尔科夫决策过程(Markov decision process, MDP),研究使用测量距离求解多对一追逃问题的最优策略.在此追逃问题中,追捕群体仅领导者可测量与逃逸者间的相对距离,而逃逸者具有全局视野.追逃策略求解被分为追博弈与马尔科夫决策两个过程.在求解追捕策略时,通过分割环境引入信念区域状态以估计逃逸者位置,同时使用测量距离对信念区域状态进行修正,构建起基于信念区域状态的连续随机追博弈,并借助不动点定理证明了博弈平稳纳什均衡策略的存在性.在求解逃逸策略时,逃逸者根据全局信息建立混合状态下的马尔科夫决策过程及相应的最优贝尔曼方程.同时给出了基于强化学习的平稳追逃策略求解算法,并通过案例验证了该算法的有效性. 展开更多
关键词 追逃问题 信念区域状态 连续随机博弈 马尔科夫决策过程 强化学习
下载PDF
Average Sample-path Optimality for Continuous-time Markov Decision Processes in Polish Spaces
5
作者 Quan-xin ZHU 《Acta Mathematicae Applicatae Sinica》 SCIE CSCD 2011年第4期613-624,共12页
In this paper we study the average sample-path cost (ASPC) problem for continuous-time Markov decision processes in Polish spaces. To the best of our knowledge, this paper is a first attempt to study the ASPC criter... In this paper we study the average sample-path cost (ASPC) problem for continuous-time Markov decision processes in Polish spaces. To the best of our knowledge, this paper is a first attempt to study the ASPC criterion on continuous-time MDPs with Polish state and action spaces. The corresponding transition rates are allowed to be unbounded, and the cost rates may have neither upper nor lower bounds. Under some mild hypotheses, we prove the existence of (ε〉 0)-ASPC optimal stationary policies based on two different approaches: one is the "optimality equation" approach and the other is the "two optimality inequalities" approach. 展开更多
关键词 continuous-time markov decision process average sample-path optimality Polish space optimality equation optimality inequality
原文传递
随机模型检测连续时间Markov过程 被引量:2
6
作者 钮俊 曾国荪 +1 位作者 吕新荣 徐畅 《计算机科学》 CSCD 北大核心 2011年第9期112-115,125,共5页
功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision proc... 功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision process)能够统一刻画复杂系统的概率选择、随机时间及不确定性等重要特征。提出用CT-MDP作为系统定性验证和定量分析模型,将复杂系统的功能验证和性能分析转化为CTMDP中的可达概率求解,并证明验证过程的正确性,最终借助模型检测器MRMC(Markov Reward Model Checker)实现模型检测。理论分析表明,提出的针对CTMDP模型的验证需求是必要的,验证思路和方法具有可行性。 展开更多
关键词 功能性能 连续时间markov决策过程 模型检测 可信验证 可达概率
下载PDF
Markov决策过程不确定策略特征模式 被引量:2
7
作者 黄镇谨 陆阳 +1 位作者 杨娟 方欢 《计算机科学》 CSCD 北大核心 2013年第4期263-266,共4页
马尔科夫决策过程可以建模具有不确定性特征的复杂系统,而在进行模型分析时需要采用策略对不确定性进行处理。首先,研究不同策略下时空有界可达概率问题,给出不确定性解决策略的定义及分类方法。其次,在时间无关策略下,证明基于确定性... 马尔科夫决策过程可以建模具有不确定性特征的复杂系统,而在进行模型分析时需要采用策略对不确定性进行处理。首先,研究不同策略下时空有界可达概率问题,给出不确定性解决策略的定义及分类方法。其次,在时间无关策略下,证明基于确定性选取动作和随机选取动作的时空有界可达概率的一致性,并且论证了时间依赖策略相对于时间无关策略具有更好的时空有界可达概率。最后结合实例简要阐述了结论的正确性。 展开更多
关键词 马尔科夫决策过程 不确定性策略 时空有界可达概率
下载PDF
Markov控制过程基于性能势仿真的并行优化 被引量:1
8
作者 高旭东 殷保群 +1 位作者 唐昊 奚宏生 《系统仿真学报》 CAS CSCD 2003年第11期1574-1576,共3页
Markov控制过程是研究随机离散事件动态系统性能优化问题的一个重要模型,并在许多实际工程问题中有着广泛的应用。在Markov性能势理论的基础上,我们讨论了一类连续时间Markov控制过程在紧致行动集上的性能优化仿真问题。由于实际系统的... Markov控制过程是研究随机离散事件动态系统性能优化问题的一个重要模型,并在许多实际工程问题中有着广泛的应用。在Markov性能势理论的基础上,我们讨论了一类连续时间Markov控制过程在紧致行动集上的性能优化仿真问题。由于实际系统的状态空间往往非常巨大,通常的串行仿真算法,可能耗时过长,也可能由于硬件限制而无法实现,故我们提出了一种基于性能势的并行仿真优化算法,来寻找系统的最优平稳策略。一个仿真实例表明该算法有较好的运行效率。该算法可应用于大规模实际系统的性能优化。 展开更多
关键词 性能势 并行仿真算法 连续时间markov控制过程 紧致行动集
下载PDF
Convergence of Markov decision processes with constraints and state-action dependent discount factors 被引量:2
9
作者 Xiao Wu Xianping Guo 《Science China Mathematics》 SCIE CSCD 2020年第1期167-182,共16页
This paper is concerned with the convergence of a sequence of discrete-time Markov decision processes(DTMDPs)with constraints,state-action dependent discount factors,and possibly unbounded costs.Using the convex analy... This paper is concerned with the convergence of a sequence of discrete-time Markov decision processes(DTMDPs)with constraints,state-action dependent discount factors,and possibly unbounded costs.Using the convex analytic approach under mild conditions,we prove that the optimal values and optimal policies of the original DTMDPs converge to those of the"limit"one.Furthermore,we show that any countablestate DTMDP can be approximated by a sequence of finite-state DTMDPs,which are constructed using the truncation technique.Finally,we illustrate the approximation by solving a controlled queueing system numerically,and give the corresponding error bound of the approximation. 展开更多
关键词 discrete-time markov decision processes state-action dependent discount factors unbounded costs CONVERGENCE
原文传递
STRONG N-DISCOUNT AND FINITE-HORIZON OPTIMALITY FOR CONTINUOUS-TIME MARKOV DECISION PROCESSES 被引量:1
10
作者 ZHU Quanxin GUO Xianping 《Journal of Systems Science & Complexity》 SCIE EI CSCD 2014年第5期1045-1063,共19页
This paper studies the strong n(n =—1,0)-discount and finite horizon criteria for continuoustime Markov decision processes in Polish spaces.The corresponding transition rates are allowed to be unbounded,and the rewar... This paper studies the strong n(n =—1,0)-discount and finite horizon criteria for continuoustime Markov decision processes in Polish spaces.The corresponding transition rates are allowed to be unbounded,and the reward rates may have neither upper nor lower bounds.Under mild conditions,the authors prove the existence of strong n(n =—1,0)-discount optimal stationary policies by developing two equivalence relations:One is between the standard expected average reward and strong—1-discount optimality,and the other is between the bias and strong 0-discount optimality.The authors also prove the existence of an optimal policy for a finite horizon control problem by developing an interesting characterization of a canonical triplet. 展开更多
关键词 continuous-time markov decision process expected average reward criterion finite-horizon optimality Polish space strong n-discount optimality
原文传递
THE BOREL STATE SPACE SEMI-MARKOVDECISION PROCESS WITH EXPECTED TOTAL REWARDS IN A SEMI-MARKOV ENVIRONMENT
11
作者 XU Chen(School of Science, Shenzhen University, Shenzhen 518060, China)HU Qiying (School of Economy and Management, Xidian University, Xi’an 710071, China) 《Systems Science and Mathematical Sciences》 SCIE EI CSCD 1999年第1期82-91,共10页
This paper investigates the Borel state space semi-Markov decision process (SMDP) with the criterion of expected total rewards in a semi-Markov environment. It describes a system which behaves like a SMDP except that ... This paper investigates the Borel state space semi-Markov decision process (SMDP) with the criterion of expected total rewards in a semi-Markov environment. It describes a system which behaves like a SMDP except that the system is influenced by its environment modeled by a semi-Markov process. We transform the SMDP in a semiMarkov environment into an equivalent discrete time Markov decision process under the condition that rewards are all positive or all negative, and obtain the optimality equation and some properties for it. 展开更多
关键词 Semi-markov decision processES semi-markov ENVIRONMENT EXPECTED TOTAL rewards BOREL state space.
原文传递
CONVERGENCE OF CONTROLLED MODELS FOR CONTINUOUS-TIME MARKOV DECISION PROCESSES WITH CONSTRAINED AVERAGE CRITERIA
12
作者 Wenzhao Zhang Xianzhu Xiong 《Annals of Applied Mathematics》 2019年第4期449-464,共16页
This paper attempts to study the convergence of optimal values and optimal policies of continuous-time Markov decision processes(CTMDP for short)under the constrained average criteria. For a given original model M_∞o... This paper attempts to study the convergence of optimal values and optimal policies of continuous-time Markov decision processes(CTMDP for short)under the constrained average criteria. For a given original model M_∞of CTMDP with denumerable states and a sequence {M_n} of CTMDP with finite states, we give a new convergence condition to ensure that the optimal values and optimal policies of {M_n} converge to the optimal value and optimal policy of M_∞as the state space Snof Mnconverges to the state space S_∞of M_∞, respectively. The transition rates and cost/reward functions of M_∞are allowed to be unbounded. Our approach can be viewed as a combination method of linear program and Lagrange multipliers. 展开更多
关键词 continuous-time markov decision processes optimal value optimal policies constrained average criteria occupation measures
原文传递
基于差分隐私的企业财务会计数据安全共享方法研究 被引量:3
13
作者 戴小凤 朱卫东 《通化师范学院学报》 2023年第4期88-94,共7页
针对现有财务会计数据共享中存在开销较大、隐私安全性较低等问题,提出一种基于差分隐私的企业财务会计数据安全共享方法.通过差分隐私技术构建强化学习的形式化模型,在建模过程中引入马尔可夫决策过程,确定会计数据状态,并获得对应最... 针对现有财务会计数据共享中存在开销较大、隐私安全性较低等问题,提出一种基于差分隐私的企业财务会计数据安全共享方法.通过差分隐私技术构建强化学习的形式化模型,在建模过程中引入马尔可夫决策过程,确定会计数据状态,并获得对应最优值函数,完成企业财务会计数据的动态隐私发布;在此基础上,设计会计数据协作服务,该数据协作服务由四种网络实体构成,分别为域密钥生成器、层密钥生成器、根密钥生成器和云服务器,防止企业财务会计数据存储时泄露,实现细粒度访问控制和数据写操作.通过区块链构建企业财务会计数据安全共享模型,模型由以太坊区块链、贡献者节点、访问者节点,以及链上激励模块构成,实现企业财务会计数据安全共享.通过三个实验数据集测试方法性能,测试结果表明:设计方法隐私安全性较高,能够保持较小的数据损失,且设计方法可在较低的开销下实现会计数据安全共享. 展开更多
关键词 差分隐私 马尔可夫决策过程 企业财务会计数据 数据安全共享 动作值函数 转移概率矩阵
下载PDF
基于深度强化学习的干扰资源分配方法 被引量:2
14
作者 李健涛 王轲昕 +1 位作者 刘凯 张天贤 《现代雷达》 CSCD 北大核心 2023年第10期44-51,共8页
针对干扰机群掩护目标突防组网雷达场景下的干扰资源分配的问题,提出了一种基于深度强化学习的干扰资源分配方法。该文将干扰资源分配模型描述为一个马尔可夫决策过程,并提出了一种基于动作密钥编码的双延迟深度确定性策略梯度(AKE-TD3... 针对干扰机群掩护目标突防组网雷达场景下的干扰资源分配的问题,提出了一种基于深度强化学习的干扰资源分配方法。该文将干扰资源分配模型描述为一个马尔可夫决策过程,并提出了一种基于动作密钥编码的双延迟深度确定性策略梯度(AKE-TD3)网络训练算法,将混合整数优化问题转化为连续变量优化问题,解决了算法难以收敛的问题。仿真结果表明,文中所设计的干扰资源分配方法对组网雷达有更好的干扰效果,且稳定性更高,有效地提升了干扰机群的作战性能。 展开更多
关键词 组网雷达系统 干扰资源分配 马尔科夫决策过程 深度强化学习 动作密钥编码
下载PDF
基于深度强化学习的停车位智能动态分配方法
15
作者 冯毅彬 裴祥静 +3 位作者 陈柱光 黄星翔 胡文豪 陈向洋 《科技创新与应用》 2023年第34期1-5,共5页
推行停车系统的“用户-停车位”动态匹配是解决“找车位难”、低效寻泊和系统周转率低等问题的有效途径。研究将停车场管理者抽象为智能体,以停车场的时、空、电等环境信息作为状态空间,以是否采取延时匹配和分配的车位编号结合为动作空... 推行停车系统的“用户-停车位”动态匹配是解决“找车位难”、低效寻泊和系统周转率低等问题的有效途径。研究将停车场管理者抽象为智能体,以停车场的时、空、电等环境信息作为状态空间,以是否采取延时匹配和分配的车位编号结合为动作空间,提出基于DQN深度强化学习算法的停车位智能动态分配方法。研究结果表明,研究可有效提高用户寻泊效率、充电需求满足率和停车系统的周转率,且智能延时匹配策略能为用户提供更优质的停车位资源。 展开更多
关键词 停车位动态分配 智能延时匹配 深度强化学习 马尔科夫决策过程 停车位分配系统
下载PDF
Markov decision processes associated with two threshold probability criteria
16
作者 Masahiko SAKAGUCHI Yoshio OHTSUBO 《控制理论与应用(英文版)》 EI CSCD 2013年第4期548-557,共10页
This paper deals with Markov decision processes with a target set for nonpositive rewards. Two types of threshold probability criteria are discussed. The first criterion is a probability that a total reward is not gre... This paper deals with Markov decision processes with a target set for nonpositive rewards. Two types of threshold probability criteria are discussed. The first criterion is a probability that a total reward is not greater than a given initial threshold value, and the second is a probability that the total reward is less than it. Our first (resp. second) optimizing problem is to minimize the first (resp. second) threshold probability. These problems suggest that the threshold value is a permissible level of the total reward to reach a goal (the target set), that is, we would reach this set over the level, if possible. For the both problems, we show that 1) the optimal threshold probability is a unique solution to an optimality equation, 2) there exists an optimal deterministic stationary policy, and 3) a value iteration and a policy space iteration are given. In addition, we prove that the first (resp. second) optimal threshold probability is a monotone increasing and right (resp. left) continuous function of the initial threshold value and propose a method to obtain an optimal policy and the optimal threshold probability in the first problem by using them in the second problem. 展开更多
关键词 markov decision process Minimizing risk model Threshold probability Policy space iteration
原文传递
马氏决策向量过程模型初步研究 被引量:4
17
作者 陈杰 朱全新 邢灵博 《河南师范大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第5期38-40,共3页
在传统马氏单元决策过程(MDP)模型中引入多元行动来确定系统的状态转移概率,通过运用传统MDP的基本理论以及结合多元行动集、决策向量、相合度等新定义,提出了马氏向量决策过程模型.
关键词 多元行动 决策向量 相合度 马氏决策向量过程
下载PDF
马尔可夫决策过程的限界模型检测 被引量:7
18
作者 周从华 邢支虎 +1 位作者 刘志锋 王昌达 《计算机学报》 EI CSCD 北大核心 2013年第12期2587-2600,共14页
限界模型检测避免了符号模型检测反应式系统中构建二叉图时出现的空间快速增长,已经被证明是缓解状态空间爆炸问题的有力技术.文中遵循限界模型检测的思想,对马尔可夫决策过程提出一种限界模型检测技术,从而避免构建多端二叉图时空间的... 限界模型检测避免了符号模型检测反应式系统中构建二叉图时出现的空间快速增长,已经被证明是缓解状态空间爆炸问题的有力技术.文中遵循限界模型检测的思想,对马尔可夫决策过程提出一种限界模型检测技术,从而避免构建多端二叉图时空间的快速增长.具有非确定选择刻画能力是马尔可夫决策过程最大的特性,针对该特性首先定义概率计算树逻辑的限界语义,并证明其正确性;然后基于不同界下所计算概率度量序列的演化趋势,设计了限界检测过程终止的判断准则;最后将限界模型检测过程转换为线性方程组的求解问题.实验结果说明限界模型检测技术在证据较短的情况下,所需内存空间少于无界模型检测算法. 展开更多
关键词 模型检测 限界模型检测 概率计算树逻辑 马尔可夫决策过程 状态空间爆炸
下载PDF
求解部分可观测马氏决策过程的强化学习算法 被引量:5
19
作者 王学宁 贺汉根 徐昕 《控制与决策》 EI CSCD 北大核心 2004年第11期1263-1266,共4页
针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法——CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来... 针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法——CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来识别混淆状态.将CPnSarsa(λ)算法应用到一些典型的POMDP,最后得到的是最优或近似最优策略.与以往算法相比,该算法的收敛速度有了很大提高. 展开更多
关键词 强化学习 部分可观测markov决策过程 Sarsa学习 无记忆策略
下载PDF
面向深空时变信道的数据传输策略 被引量:2
20
作者 吴海涛 焦健 +4 位作者 顾术实 陈晨 李云鹤 吴绍华 张钦宇 《宇航学报》 EI CAS CSCD 北大核心 2016年第2期216-222,共7页
将呈现随机"好"、"坏"状态跳变的深空Ka频段链路噪声温度建模为两状态Gilbert-Elliot信道,考虑深空下行发送端只能获得延迟的信道状态信息(CSI)的限制,结合部分观测马尔科夫决策理论设计了基于延迟CSI预测信道状态... 将呈现随机"好"、"坏"状态跳变的深空Ka频段链路噪声温度建模为两状态Gilbert-Elliot信道,考虑深空下行发送端只能获得延迟的信道状态信息(CSI)的限制,结合部分观测马尔科夫决策理论设计了基于延迟CSI预测信道状态的自适应最大化吞吐量传输策略。理论推导了在深空通信环境下最优传输策略的关键阈值,并给出了简化的闭合解计算式。通过地球-火星通信参数仿真,校验了该方案能有效提高吞吐量,提高文件传输效率。 展开更多
关键词 深空通信 KA频段 GE信道 马尔科夫决策
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部