期刊文献+
共找到61篇文章
< 1 2 4 >
每页显示 20 50 100
First Passage Models for Denumerable Semi-Markov Decision Processes with Nonnegative Discounted Costs 被引量:2
1
作者 Yong-hui Huang Xian-ping Guo 《Acta Mathematicae Applicatae Sinica》 SCIE CSCD 2011年第2期177-190,共14页
This paper considers a first passage model for discounted semi-Markov decision processes with denumerable states and nonnegative costs. The criterion to be optimized is the expected discounted cost incurred during a f... This paper considers a first passage model for discounted semi-Markov decision processes with denumerable states and nonnegative costs. The criterion to be optimized is the expected discounted cost incurred during a first passage time to a given target set. We first construct a semi-Markov decision process under a given semi-Markov decision kernel and a policy. Then, we prove that the value function satisfies the optimality equation and there exists an optimal (or ε-optimal) stationary policy under suitable conditions by using a minimum nonnegative solution approach. Further we give some properties of optimal policies. In addition, a value iteration algorithm for computing the value function and optimal policies is developed and an example is given. Finally, it is showed that our model is an extension of the first passage models for both discrete-time and continuous-time Markov decision processes. 展开更多
关键词 semi-markov decision processes target set first passage time discounted cost optimal policy
原文传递
Performance Potential-based Neuro-dynamic Programming for SMDPs 被引量:10
2
作者 TANGHao YUANJi-Bin LUYang CHENGWen-Juan 《自动化学报》 EI CSCD 北大核心 2005年第4期642-645,共4页
An alpha-uniformized Markov chain is defined by the concept of equivalent infinitesimalgenerator for a semi-Markov decision process (SMDP) with both average- and discounted-criteria.According to the relations of their... An alpha-uniformized Markov chain is defined by the concept of equivalent infinitesimalgenerator for a semi-Markov decision process (SMDP) with both average- and discounted-criteria.According to the relations of their performance measures and performance potentials, the optimiza-tion of an SMDP can be realized by simulating the chain. For the critic model of neuro-dynamicprogramming (NDP), a neuro-policy iteration (NPI) algorithm is presented, and the performanceerror bound is shown as there are approximate error and improvement error in each iteration step.The obtained results may be extended to Markov systems, and have much applicability. Finally, anumerical example is provided. 展开更多
关键词 决议过程 smdp 执行电位 神经动力学 markov 优化设计
下载PDF
Remaining useful life prediction for engineering systems under dynamic operational conditions: A semi-Markov decision process-based approach 被引量:3
3
作者 Diyin TANG Jinrong CAO Jinsong YU 《Chinese Journal of Aeronautics》 SCIE EI CAS CSCD 2019年第3期627-638,共12页
For critical engineering systems such as aircraft and aerospace vehicles, accurate Remaining Useful Life(RUL) prediction not only means cost saving, but more importantly, is of great significance in ensuring system re... For critical engineering systems such as aircraft and aerospace vehicles, accurate Remaining Useful Life(RUL) prediction not only means cost saving, but more importantly, is of great significance in ensuring system reliability and preventing disaster. RUL is affected not only by a system's intrinsic deterioration, but also by the operational conditions under which the system is operating. This paper proposes an RUL prediction approach to estimate the mean RUL of a continuously degrading system under dynamic operational conditions and subjected to condition monitoring at short equi-distant intervals. The dynamic nature of the operational conditions is described by a discrete-time Markov chain, and their influences on the degradation signal are quantified by degradation rates and signal jumps in the degradation model. The uniqueness of our proposed approach is formulating the RUL prediction problem in a semi-Markov decision process framework, by which the system mean RUL can be obtained through the solution to a limited number of equations. To extend the use of our proposed approach in real applications, different failure standards according to different operational conditions are also considered. The application and effectiveness of this approach are illustrated by a turbofan engine dataset and a comparison with existing results for the same dataset. 展开更多
关键词 Condition-specific failure threshold Degradation modeling DYNAMIC operational conditions REMAINING useful life semi-markov decision process
原文传递
THE BOREL STATE SPACE SEMI-MARKOVDECISION PROCESS WITH EXPECTED TOTAL REWARDS IN A SEMI-MARKOV ENVIRONMENT
4
作者 XU Chen(School of Science, Shenzhen University, Shenzhen 518060, China)HU Qiying (School of Economy and Management, Xidian University, Xi’an 710071, China) 《Systems Science and Mathematical Sciences》 SCIE EI CSCD 1999年第1期82-91,共10页
This paper investigates the Borel state space semi-Markov decision process (SMDP) with the criterion of expected total rewards in a semi-Markov environment. It describes a system which behaves like a SMDP except that ... This paper investigates the Borel state space semi-Markov decision process (SMDP) with the criterion of expected total rewards in a semi-Markov environment. It describes a system which behaves like a SMDP except that the system is influenced by its environment modeled by a semi-Markov process. We transform the SMDP in a semiMarkov environment into an equivalent discrete time Markov decision process under the condition that rewards are all positive or all negative, and obtain the optimality equation and some properties for it. 展开更多
关键词 semi-markov decision processes semi-markov ENVIRONMENT EXPECTED TOTAL rewards BOREL state space.
原文传递
不确定SMDP基于全局优化的鲁棒决策问题 被引量:4
5
作者 刘春 唐昊 程文娟 《系统仿真学报》 EI CAS CSCD 北大核心 2005年第11期2704-2707,共4页
考虑半马尔可夫决策过程(SMDP)在一些系统参数不确定,且性能函数依赖于这些参数时的鲁棒决策问题。这些参数的不确定性不仅导致等价无穷小生成子的不确定性,也导致性能函数的不确定性。论文针对相关参数的情况,分别采用不同的全局优化算... 考虑半马尔可夫决策过程(SMDP)在一些系统参数不确定,且性能函数依赖于这些参数时的鲁棒决策问题。这些参数的不确定性不仅导致等价无穷小生成子的不确定性,也导致性能函数的不确定性。论文针对相关参数的情况,分别采用不同的全局优化算法,即填充函数法和模拟退火算法,进行鲁棒控制策略求解。仿真实例说明,全局优化方法的使用保证了平均准则和折扣准则下的计算结果之间当折扣因子趋近于零时的极限关系成立。 展开更多
关键词 半马尔可夫决策过程 性能势 鲁棒决策 全局优化
下载PDF
基于半Markov决策过程的劣化系统检测与维修优化模型 被引量:10
6
作者 程志君 郭波 《自动化学报》 EI CSCD 北大核心 2007年第10期1101-1104,共4页
针对系统劣化阶段持续时间、检测间隔时间和维修时间都服从一般分布的情况,提出了一类基于半马氏决策过程的劣化系统检测与维修优化模型.利用位相型分布近似一般分布简化了求解过程,并提出了相应的改进值迭代算法.最后通过算例验证了模... 针对系统劣化阶段持续时间、检测间隔时间和维修时间都服从一般分布的情况,提出了一类基于半马氏决策过程的劣化系统检测与维修优化模型.利用位相型分布近似一般分布简化了求解过程,并提出了相应的改进值迭代算法.最后通过算例验证了模型与迭代算法的可行性. 展开更多
关键词 劣化系统 半马氏决策过程 位相型分布 检测与维修
下载PDF
基于SMDP的虚拟化无线传感网络资源分配策略 被引量:6
7
作者 王汝言 李宏娟 李红霞 《太赫兹科学与电子信息学报》 北大核心 2020年第1期66-71,共6页
针对传统无线传感网络(WSN)中资源部署与特定任务的耦合关系密切从而造成较低的资源利用率问题,将虚拟化技术引入WSN,提出基于半马尔科夫决策过程(SMDP)的资源分配策略。定义虚拟化WSN的状态集、行为集、状态转移概率,考虑传感网能量受... 针对传统无线传感网络(WSN)中资源部署与特定任务的耦合关系密切从而造成较低的资源利用率问题,将虚拟化技术引入WSN,提出基于半马尔科夫决策过程(SMDP)的资源分配策略。定义虚拟化WSN的状态集、行为集、状态转移概率,考虑传感网能量受限以及完成虚拟传感网络请求(VSNR)的时间,给出奖励的表达式,并使用值迭代的方法求解特定状态下的行为,在提高资源利用率的同时最大化网络资源提供者的长期收益。数值结果表明,所提的资源分配策略能有效提高资源提供者的收益。 展开更多
关键词 无线传感网络 虚拟化 资源分配 半马尔科夫决策过程
下载PDF
半Markov决策过程的数值迭代优化 被引量:2
8
作者 唐昊 吴玉华 周雷 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2006年第1期108-112,共5页
针对半Markov决策过程在紧致行动集上的数值迭代优化,提出了折扣和平均准则下直接基于等价无穷小生成子的统一的标准数值迭代算法,并证明了其收敛性。另外,讨论了两种性能准则下统一的异步数值迭代算法,包括Gauss-Seidel异步迭代和随机... 针对半Markov决策过程在紧致行动集上的数值迭代优化,提出了折扣和平均准则下直接基于等价无穷小生成子的统一的标准数值迭代算法,并证明了其收敛性。另外,讨论了两种性能准则下统一的异步数值迭代算法,包括Gauss-Seidel异步迭代和随机异步迭代,特别是基于样本轨道仿真的数值迭代等,并运用性能势思想对上述算法进行改进。结果表明,该算法可直接适用于连续时间Markov决策过程。最后通过一个数值例子来比较各种算法的特点。 展开更多
关键词 计算机应用 markov决策过程 等价无穷小生成子 异步数值迭代
下载PDF
半Markov决策过程折扣模型与平均模型之间的关系 被引量:1
9
作者 殷保群 李衍杰 +2 位作者 唐昊 代桂平 奚宏生 《控制理论与应用》 EI CAS CSCD 北大核心 2006年第1期65-68,共4页
首先分别在折扣代价与平均代价性能准则下,讨论了一类半M arkov决策问题.基于性能势方法,导出了由最优平稳策略所满足的最优性方程.然后讨论了两种模型之间的关系,表明了平均模型的有关结论,可以通过对折扣模型相应结论取折扣因子趋于... 首先分别在折扣代价与平均代价性能准则下,讨论了一类半M arkov决策问题.基于性能势方法,导出了由最优平稳策略所满足的最优性方程.然后讨论了两种模型之间的关系,表明了平均模型的有关结论,可以通过对折扣模型相应结论取折扣因子趋于零时的极限来得到. 展开更多
关键词 markov决策过程 折扣模型 平均模型 最优性方程 最优平稳策略
下载PDF
基于SMDP的异构无线网络联合接纳控制策略研究
10
作者 张媛媛 肖创柏 王坚 《北京工业大学学报》 CAS CSCD 北大核心 2015年第9期1355-1364,共10页
为了异构无线网络中不同无线技术的融合协同工作可以为终端接人提供随时随地的高质量的网络服务,联合呼叫接纳控制机制是适用于异构无线网络的判决呼叫准入的机制.提出一种优化的联合呼叫接纳控制机制用于异构无线网络,将新的呼叫和切... 为了异构无线网络中不同无线技术的融合协同工作可以为终端接人提供随时随地的高质量的网络服务,联合呼叫接纳控制机制是适用于异构无线网络的判决呼叫准入的机制.提出一种优化的联合呼叫接纳控制机制用于异构无线网络,将新的呼叫和切换呼叫作为触发接纳控制的事件,对影响服务质量的参数和接纳控制开销进行网络效用建模分析,使用改进的值迭代算法来降低计算复杂度,将阈值函数分成多个域,来获得最优决策策略.提出的联合接入控制策略可提供优化服务质量保证,节约整个网络的能耗成本,并且有效降低呼叫阻塞率和切换掉线率.实验结果表明:算法具有较高的求解有效性,而且求解速度快,具有较高的推广应用价值. 展开更多
关键词 异构无线网络 接纳控制 半马尔科夫决策过程
下载PDF
SMDP基于Actor网络的统一NDP方法
11
作者 唐昊 陈栋 +1 位作者 周雷 吴玉华 《控制与决策》 EI CSCD 北大核心 2007年第2期155-159,共5页
研究半马尔可夫决策过程(SMDP)基于性能势学习和策略逼近的神经元动态规划(NDP)方法.通过SMDP的一致马尔可夫链的单个样本轨道,给出了折扣和平均准则下统一的性能势TD(λ)学习算法,进行逼近策略评估;利用一个神经元网络逼近结构作为行动... 研究半马尔可夫决策过程(SMDP)基于性能势学习和策略逼近的神经元动态规划(NDP)方法.通过SMDP的一致马尔可夫链的单个样本轨道,给出了折扣和平均准则下统一的性能势TD(λ)学习算法,进行逼近策略评估;利用一个神经元网络逼近结构作为行动器(Actor)表示策略,并根据性能势的学习值给出策略参数改进的两种方法.最后通过数值例子说明了有关算法的有效性. 展开更多
关键词 markov决策过程 性能势 TD(λ)学习 神经元动态规划
下载PDF
可数半Markov决策过程折扣代价性能优化
12
作者 殷保群 李衍杰 +1 位作者 周亚平 奚宏生 《控制与决策》 EI CSCD 北大核心 2006年第8期933-936,共4页
讨论一类可数半M arkov决策过程(CSM DP)在折扣代价准则下的性能优化问题.运用等价M arkov过程方法,定义了折扣Po isson方程,并由该方程定义了α-势.基于α-势,导出了由最优平稳策略所满足的最优性方程.较为详细地讨论了最优性方程解的... 讨论一类可数半M arkov决策过程(CSM DP)在折扣代价准则下的性能优化问题.运用等价M arkov过程方法,定义了折扣Po isson方程,并由该方程定义了α-势.基于α-势,导出了由最优平稳策略所满足的最优性方程.较为详细地讨论了最优性方程解的存在性问题,并给出了其解存在的一些充分条件. 展开更多
关键词 可数半markov决策过程 折扣性能准则 折扣Poisson方程 α- 最优性方程
下载PDF
基于SMDP的光柴储独立微网能量控制策略优化 被引量:4
13
作者 周康 唐昊 +2 位作者 江琦 吕凯 蒋兰海 《电力系统自动化》 EI CSCD 北大核心 2016年第21期154-160,共7页
考虑含光伏发电装置、储能装置和柴油发电机组的独立微网系统,以提高微网长期运行经济性为目标,研究微网能量管理优化问题。首先对系统的随机动态特性进行建模,即针对光伏发电和负荷变化的随机特性,将微网系统的能量控制建模为半马尔可... 考虑含光伏发电装置、储能装置和柴油发电机组的独立微网系统,以提高微网长期运行经济性为目标,研究微网能量管理优化问题。首先对系统的随机动态特性进行建模,即针对光伏发电和负荷变化的随机特性,将微网系统的能量控制建模为半马尔可夫决策过程(SMDP);然后采用随机动态规划算法对最优策略进行求解,得到微网在不同的光伏发电功率、负荷需求、储能荷电状态等级和柴油发电机组运行数量下对柴油发电机组和储能装置的最优控制行动。仿真结果说明了所建随机模型的合理性和优化方法的有效性。 展开更多
关键词 微网(微电网) 光伏发电 储能 半马尔可夫决策过程
下载PDF
基于SMDP模型的Web服务组合优化方法 被引量:4
14
作者 柴雪霞 马学森 +1 位作者 周雷 唐昊 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第10期1496-1500,共5页
针对Internet环境的动态性和Web服务的不确定性,文章使用有限状态连续时间半马尔可夫决策过程(Semi-Markov Decision Process,简称SMDP)对服务组合进行建模,并给出了服务组合的Q学习优化算法,以获得最优的服务组合策略。通过仿真实验验... 针对Internet环境的动态性和Web服务的不确定性,文章使用有限状态连续时间半马尔可夫决策过程(Semi-Markov Decision Process,简称SMDP)对服务组合进行建模,并给出了服务组合的Q学习优化算法,以获得最优的服务组合策略。通过仿真实验验证了该算法的有效性,仿真结果表明,使用动态的控制方法具有较高的服务组合成功率。 展开更多
关键词 WEB服务组合 半马尔可夫决策过程 服务质量(QoS) Q学习
下载PDF
基于策略迭代和遗传算法的SMDP鲁棒控制策略求解 被引量:1
15
作者 程燕 唐昊 马学森 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2007年第11期1404-1407,共4页
半马尔可夫决策过程(SMDP)描述的一类受控半Markov系统,其模型参数在实际中常常不确定或不可知,可能导致随机过程的性能函数和系统参数(即嵌入链转移概率和状态逗留时间分布)皆不确定。该文针对参数不相关的情况,给出求解鲁棒控制策略... 半马尔可夫决策过程(SMDP)描述的一类受控半Markov系统,其模型参数在实际中常常不确定或不可知,可能导致随机过程的性能函数和系统参数(即嵌入链转移概率和状态逗留时间分布)皆不确定。该文针对参数不相关的情况,给出求解鲁棒控制策略的迭代算法,并在迭代过程中引入遗传算法,以提高全局优化能力。数值例子表明,基于遗传算法的策略迭代应用于鲁棒决策问题中具有较好的优化效果。 展开更多
关键词 半马尔可夫决策过程 性能势 鲁棒控制 遗传算法
下载PDF
考虑个体差异的系统退化建模与半Markov过程维修决策 被引量:3
16
作者 李琦 李婧 +1 位作者 蒋增强 边靖媛 《计算机集成制造系统》 EI CSCD 北大核心 2020年第2期331-339,共9页
为了在采样不完全、个体差异明显的条件下对缓慢退化系统的维修策略进行研究,针对具有个体差异的缓慢退化系统,选择线性混合效应模型进行退化建模,并利用自回归方法对模型残差中的时间序列相关性进行调节,提高了模型的准确性。在此基础... 为了在采样不完全、个体差异明显的条件下对缓慢退化系统的维修策略进行研究,针对具有个体差异的缓慢退化系统,选择线性混合效应模型进行退化建模,并利用自回归方法对模型残差中的时间序列相关性进行调节,提高了模型的准确性。在此基础上构造合理的状态空间和维修决策空间,求解退化过程的状态转移概率,并使用策略迭代算法求解最小化单位时间长期预计成本的最优化维修策略。以激光退化实际案例求解了基于半Markov决策过程的维修策略,并与经典的基于役龄的维修策略和周期检查的维修策略进行比较,证明了所提方法能够更加精确地刻画系统的退化过程,并可帮助制定兼顾成本与可靠性的维修策略。 展开更多
关键词 markov决策过程 缓慢退化系统 线性混合效应模型 策略迭代算法
下载PDF
SMDP基于性能势的M步向前策略迭代
17
作者 吴玉华 唐昊 周雷 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2006年第6期958-962,共5页
运用基于性能势的M步向前(look-ahead)异步策略迭代算法研究了半Markov决策过程(SMDP)优化问题。首先给出了基于性能势理论求解的一种M步向前策略迭代算法。该算法不仅对标准策略迭代算法和一般的异步策略迭代算法都适用,而且对SMDP在... 运用基于性能势的M步向前(look-ahead)异步策略迭代算法研究了半Markov决策过程(SMDP)优化问题。首先给出了基于性能势理论求解的一种M步向前策略迭代算法。该算法不仅对标准策略迭代算法和一般的异步策略迭代算法都适用,而且对SMDP在折扣和平均准则下的优化也是统一的;另外给出了两种性能准则下基于即时差分学习的M步向前仿真策略迭代。最后通过一个数值算例比较了各种算法的特点。 展开更多
关键词 计算机应用 markov决策过程 性能势 M步向前策略迭代 即时差分学习
下载PDF
基于半Markov决策过程的概率布尔网络模型
18
作者 刘秋丽 杨洁 《华南师范大学学报(自然科学版)》 CAS 北大核心 2013年第4期12-15,共4页
借助半Markov决策过程理论研究了概率布尔网络中的最优控制问题.将概率布尔网络的控制模型转化为首达目标的半Markov决策过程模型,通过选取最优控制输入使得和系统相关的目标函数最小,从而解决了一个最优控制问题,并举例说明所用方法的... 借助半Markov决策过程理论研究了概率布尔网络中的最优控制问题.将概率布尔网络的控制模型转化为首达目标的半Markov决策过程模型,通过选取最优控制输入使得和系统相关的目标函数最小,从而解决了一个最优控制问题,并举例说明所用方法的效用. 展开更多
关键词 概率布尔网络 markov决策过程 风险概率
下载PDF
深度分层强化学习研究与发展 被引量:5
19
作者 黄志刚 刘全 +2 位作者 张立华 曹家庆 朱斐 《软件学报》 EI CSCD 北大核心 2023年第2期733-760,共28页
深度分层强化学习是深度强化学习领域的一个重要研究方向,它重点关注经典深度强化学习难以解决的稀疏奖励、顺序决策和弱迁移能力等问题.其核心思想在于:根据分层思想构建具有多层结构的强化学习策略,运用时序抽象表达方法组合时间细粒... 深度分层强化学习是深度强化学习领域的一个重要研究方向,它重点关注经典深度强化学习难以解决的稀疏奖励、顺序决策和弱迁移能力等问题.其核心思想在于:根据分层思想构建具有多层结构的强化学习策略,运用时序抽象表达方法组合时间细粒度的下层动作,学习时间粗粒度的、有语义的上层动作,将复杂问题分解为数个简单问题进行求解.近年来,随着研究的深入,深度分层强化学习方法已经取得了实质性的突破,且被应用于视觉导航、自然语言处理、推荐系统和视频描述生成等生活领域.首先介绍了分层强化学习的理论基础;然后描述了深度分层强化学习的核心技术,包括分层抽象技术和常用实验环境;详细分析了基于技能的深度分层强化学习框架和基于子目标的深度分层强化学习框架,对比了各类算法的研究现状和发展趋势;接下来介绍了深度分层强化学习在多个现实生活领域中的应用;最后,对深度分层强化学习进行了展望和总结. 展开更多
关键词 人工智能 强化学习 深度强化学习 半马尔可夫决策过程 深度分层强化学习
下载PDF
基于半马氏的无限阶段指数效用最优模型
20
作者 温鲜 霍海峰 《应用概率统计》 CSCD 北大核心 2023年第4期577-588,共12页
本文考虑半马氏决策过程的指数效用最优问题,其中状态和行动空间均为Borel集,报酬函数非负.最优准则是最大化系统无限阶段内获取总报酬指数效用的期望值.首先,建立标准正则性条件确保状态过程非爆炸,连续-紧条件确保最优策略存在.其次,... 本文考虑半马氏决策过程的指数效用最优问题,其中状态和行动空间均为Borel集,报酬函数非负.最优准则是最大化系统无限阶段内获取总报酬指数效用的期望值.首先,建立标准正则性条件确保状态过程非爆炸,连续-紧条件确保最优策略存在.其次,基于这些条件,利用值迭代和嵌入链技术,证明了值函数是相应最优方程的唯一解以及最优策略的存在性.最后,通过实例展示了如何利用值迭代算法计算值函数和最优策略. 展开更多
关键词 半马氏决策过程 指数效用 值迭代 最优方程 最优策略
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部