期刊文献+
共找到63篇文章
< 1 2 4 >
每页显示 20 50 100
Remaining useful life prediction for engineering systems under dynamic operational conditions: A semi-Markov decision process-based approach 被引量:3
1
作者 Diyin TANG Jinrong CAO Jinsong YU 《Chinese Journal of Aeronautics》 SCIE EI CAS CSCD 2019年第3期627-638,共12页
For critical engineering systems such as aircraft and aerospace vehicles, accurate Remaining Useful Life(RUL) prediction not only means cost saving, but more importantly, is of great significance in ensuring system re... For critical engineering systems such as aircraft and aerospace vehicles, accurate Remaining Useful Life(RUL) prediction not only means cost saving, but more importantly, is of great significance in ensuring system reliability and preventing disaster. RUL is affected not only by a system's intrinsic deterioration, but also by the operational conditions under which the system is operating. This paper proposes an RUL prediction approach to estimate the mean RUL of a continuously degrading system under dynamic operational conditions and subjected to condition monitoring at short equi-distant intervals. The dynamic nature of the operational conditions is described by a discrete-time Markov chain, and their influences on the degradation signal are quantified by degradation rates and signal jumps in the degradation model. The uniqueness of our proposed approach is formulating the RUL prediction problem in a semi-Markov decision process framework, by which the system mean RUL can be obtained through the solution to a limited number of equations. To extend the use of our proposed approach in real applications, different failure standards according to different operational conditions are also considered. The application and effectiveness of this approach are illustrated by a turbofan engine dataset and a comparison with existing results for the same dataset. 展开更多
关键词 Condition-specific failure threshold Degradation modeling DYNAMIC operational conditions REMAINING useful life semi-markov decision process
原文传递
First Passage Models for Denumerable Semi-Markov Decision Processes with Nonnegative Discounted Costs 被引量:2
2
作者 Yong-hui Huang Xian-ping Guo 《Acta Mathematicae Applicatae Sinica》 SCIE CSCD 2011年第2期177-190,共14页
This paper considers a first passage model for discounted semi-Markov decision processes with denumerable states and nonnegative costs. The criterion to be optimized is the expected discounted cost incurred during a f... This paper considers a first passage model for discounted semi-Markov decision processes with denumerable states and nonnegative costs. The criterion to be optimized is the expected discounted cost incurred during a first passage time to a given target set. We first construct a semi-Markov decision process under a given semi-Markov decision kernel and a policy. Then, we prove that the value function satisfies the optimality equation and there exists an optimal (or ε-optimal) stationary policy under suitable conditions by using a minimum nonnegative solution approach. Further we give some properties of optimal policies. In addition, a value iteration algorithm for computing the value function and optimal policies is developed and an example is given. Finally, it is showed that our model is an extension of the first passage models for both discrete-time and continuous-time Markov decision processes. 展开更多
关键词 semi-markov decision processes target set first passage time discounted cost optimal policy
原文传递
THE BOREL STATE SPACE SEMI-MARKOVDECISION PROCESS WITH EXPECTED TOTAL REWARDS IN A SEMI-MARKOV ENVIRONMENT
3
作者 XU Chen(School of Science, Shenzhen University, Shenzhen 518060, China)HU Qiying (School of Economy and Management, Xidian University, Xi’an 710071, China) 《Systems Science and Mathematical Sciences》 SCIE EI CSCD 1999年第1期82-91,共10页
This paper investigates the Borel state space semi-Markov decision process (SMDP) with the criterion of expected total rewards in a semi-Markov environment. It describes a system which behaves like a SMDP except that ... This paper investigates the Borel state space semi-Markov decision process (SMDP) with the criterion of expected total rewards in a semi-Markov environment. It describes a system which behaves like a SMDP except that the system is influenced by its environment modeled by a semi-Markov process. We transform the SMDP in a semiMarkov environment into an equivalent discrete time Markov decision process under the condition that rewards are all positive or all negative, and obtain the optimality equation and some properties for it. 展开更多
关键词 semi-markov decision processES semi-markov ENVIRONMENT EXPECTED TOTAL rewards BOREL state space.
原文传递
基于半Markov决策过程的劣化系统检测与维修优化模型 被引量:10
4
作者 程志君 郭波 《自动化学报》 EI CSCD 北大核心 2007年第10期1101-1104,共4页
针对系统劣化阶段持续时间、检测间隔时间和维修时间都服从一般分布的情况,提出了一类基于半马氏决策过程的劣化系统检测与维修优化模型.利用位相型分布近似一般分布简化了求解过程,并提出了相应的改进值迭代算法.最后通过算例验证了模... 针对系统劣化阶段持续时间、检测间隔时间和维修时间都服从一般分布的情况,提出了一类基于半马氏决策过程的劣化系统检测与维修优化模型.利用位相型分布近似一般分布简化了求解过程,并提出了相应的改进值迭代算法.最后通过算例验证了模型与迭代算法的可行性. 展开更多
关键词 劣化系统 半马氏决策过程 位相型分布 检测与维修
下载PDF
半Markov决策过程的数值迭代优化 被引量:2
5
作者 唐昊 吴玉华 周雷 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2006年第1期108-112,共5页
针对半Markov决策过程在紧致行动集上的数值迭代优化,提出了折扣和平均准则下直接基于等价无穷小生成子的统一的标准数值迭代算法,并证明了其收敛性。另外,讨论了两种性能准则下统一的异步数值迭代算法,包括Gauss-Seidel异步迭代和随机... 针对半Markov决策过程在紧致行动集上的数值迭代优化,提出了折扣和平均准则下直接基于等价无穷小生成子的统一的标准数值迭代算法,并证明了其收敛性。另外,讨论了两种性能准则下统一的异步数值迭代算法,包括Gauss-Seidel异步迭代和随机异步迭代,特别是基于样本轨道仿真的数值迭代等,并运用性能势思想对上述算法进行改进。结果表明,该算法可直接适用于连续时间Markov决策过程。最后通过一个数值例子来比较各种算法的特点。 展开更多
关键词 计算机应用 markov决策过程 等价无穷小生成子 异步数值迭代
下载PDF
半Markov决策过程折扣模型与平均模型之间的关系 被引量:1
6
作者 殷保群 李衍杰 +2 位作者 唐昊 代桂平 奚宏生 《控制理论与应用》 EI CAS CSCD 北大核心 2006年第1期65-68,共4页
首先分别在折扣代价与平均代价性能准则下,讨论了一类半M arkov决策问题.基于性能势方法,导出了由最优平稳策略所满足的最优性方程.然后讨论了两种模型之间的关系,表明了平均模型的有关结论,可以通过对折扣模型相应结论取折扣因子趋于... 首先分别在折扣代价与平均代价性能准则下,讨论了一类半M arkov决策问题.基于性能势方法,导出了由最优平稳策略所满足的最优性方程.然后讨论了两种模型之间的关系,表明了平均模型的有关结论,可以通过对折扣模型相应结论取折扣因子趋于零时的极限来得到. 展开更多
关键词 markov决策过程 折扣模型 平均模型 最优性方程 最优平稳策略
下载PDF
可数半Markov决策过程折扣代价性能优化
7
作者 殷保群 李衍杰 +1 位作者 周亚平 奚宏生 《控制与决策》 EI CSCD 北大核心 2006年第8期933-936,共4页
讨论一类可数半M arkov决策过程(CSM DP)在折扣代价准则下的性能优化问题.运用等价M arkov过程方法,定义了折扣Po isson方程,并由该方程定义了α-势.基于α-势,导出了由最优平稳策略所满足的最优性方程.较为详细地讨论了最优性方程解的... 讨论一类可数半M arkov决策过程(CSM DP)在折扣代价准则下的性能优化问题.运用等价M arkov过程方法,定义了折扣Po isson方程,并由该方程定义了α-势.基于α-势,导出了由最优平稳策略所满足的最优性方程.较为详细地讨论了最优性方程解的存在性问题,并给出了其解存在的一些充分条件. 展开更多
关键词 可数半markov决策过程 折扣性能准则 折扣Poisson方程 α- 最优性方程
下载PDF
考虑个体差异的系统退化建模与半Markov过程维修决策 被引量:3
8
作者 李琦 李婧 +1 位作者 蒋增强 边靖媛 《计算机集成制造系统》 EI CSCD 北大核心 2020年第2期331-339,共9页
为了在采样不完全、个体差异明显的条件下对缓慢退化系统的维修策略进行研究,针对具有个体差异的缓慢退化系统,选择线性混合效应模型进行退化建模,并利用自回归方法对模型残差中的时间序列相关性进行调节,提高了模型的准确性。在此基础... 为了在采样不完全、个体差异明显的条件下对缓慢退化系统的维修策略进行研究,针对具有个体差异的缓慢退化系统,选择线性混合效应模型进行退化建模,并利用自回归方法对模型残差中的时间序列相关性进行调节,提高了模型的准确性。在此基础上构造合理的状态空间和维修决策空间,求解退化过程的状态转移概率,并使用策略迭代算法求解最小化单位时间长期预计成本的最优化维修策略。以激光退化实际案例求解了基于半Markov决策过程的维修策略,并与经典的基于役龄的维修策略和周期检查的维修策略进行比较,证明了所提方法能够更加精确地刻画系统的退化过程,并可帮助制定兼顾成本与可靠性的维修策略。 展开更多
关键词 markov决策过程 缓慢退化系统 线性混合效应模型 策略迭代算法
下载PDF
Performance Potential-based Neuro-dynamic Programming for SMDPs 被引量:10
9
作者 TANGHao YUANJi-Bin LUYang CHENGWen-Juan 《自动化学报》 EI CSCD 北大核心 2005年第4期642-645,共4页
An alpha-uniformized Markov chain is defined by the concept of equivalent infinitesimalgenerator for a semi-Markov decision process (SMDP) with both average- and discounted-criteria.According to the relations of their... An alpha-uniformized Markov chain is defined by the concept of equivalent infinitesimalgenerator for a semi-Markov decision process (SMDP) with both average- and discounted-criteria.According to the relations of their performance measures and performance potentials, the optimiza-tion of an SMDP can be realized by simulating the chain. For the critic model of neuro-dynamicprogramming (NDP), a neuro-policy iteration (NPI) algorithm is presented, and the performanceerror bound is shown as there are approximate error and improvement error in each iteration step.The obtained results may be extended to Markov systems, and have much applicability. Finally, anumerical example is provided. 展开更多
关键词 决议过程 SMDP 执行电位 神经动力学 markov 优化设计
下载PDF
基于半Markov决策过程的概率布尔网络模型
10
作者 刘秋丽 杨洁 《华南师范大学学报(自然科学版)》 CAS 北大核心 2013年第4期12-15,共4页
借助半Markov决策过程理论研究了概率布尔网络中的最优控制问题.将概率布尔网络的控制模型转化为首达目标的半Markov决策过程模型,通过选取最优控制输入使得和系统相关的目标函数最小,从而解决了一个最优控制问题,并举例说明所用方法的... 借助半Markov决策过程理论研究了概率布尔网络中的最优控制问题.将概率布尔网络的控制模型转化为首达目标的半Markov决策过程模型,通过选取最优控制输入使得和系统相关的目标函数最小,从而解决了一个最优控制问题,并举例说明所用方法的效用. 展开更多
关键词 概率布尔网络 markov决策过程 风险概率
下载PDF
基于深度强化学习的串联系统屏蔽故障维修策略研究
11
作者 樊小波 黄允 +1 位作者 谌楚 夏诗雨 《机床与液压》 北大核心 2024年第21期216-220,共5页
多部件串联系统维修决策优化问题得到越来越多的关注,目前绝大多数相关研究均假设系统失效时其失效部件是可直接观测的。实际的生产运营中,当系统发生失效时,其故障原因往往是屏蔽的,需要采用专业的工具进行诊断才能确定失效部件,继而... 多部件串联系统维修决策优化问题得到越来越多的关注,目前绝大多数相关研究均假设系统失效时其失效部件是可直接观测的。实际的生产运营中,当系统发生失效时,其故障原因往往是屏蔽的,需要采用专业的工具进行诊断才能确定失效部件,继而进行维修。当诊断成本较高且部件接近更换役龄时,可以选择直接更换整个系统而不进行诊断。面向串联系统,考虑其发生屏蔽故障时,可以执行故障诊断确定失效部件继而更换,或者直接更换整个系统,建立半马尔科夫决策模型,以长周期成本率最低为目标函数,决策出每次屏蔽故障时的最佳动作。考虑到多部件导致的状态空间维数灾难问题,采用深度强化学习算法进行求解。最后将模型和算法应用于水电站液压自动抓梁系统,证明了其有效性。 展开更多
关键词 维修决策 串联系统 屏蔽故障 半马尔科夫决策 深度强化学习
下载PDF
Application of Exponential Distribution in Modeling of State Holding Time in HIV/AIDS Transition Dynamics
12
作者 Nahashon Mwirigi 《Open Journal of Modelling and Simulation》 2024年第4期159-183,共25页
Markov modeling of HIV/AIDS progression was done under the assumption that the state holding time (waiting time) had a constant hazard. This paper discusses the properties of the hazard function of the Exponential dis... Markov modeling of HIV/AIDS progression was done under the assumption that the state holding time (waiting time) had a constant hazard. This paper discusses the properties of the hazard function of the Exponential distributions and its modifications namely;Parameter proportion hazard (PH) and Accelerated failure time models (AFT) and their effectiveness in modeling the state holding time in Markov modeling of HIV/AIDS progression with and without risk factors. Patients were categorized by gender and age with female gender being the baseline. Data simulated using R software was fitted to each model, and the model parameters were estimated. The estimated P and Z values were then used to test the null hypothesis that the state waiting time data followed an Exponential distribution. Model identification criteria;Akaike information criteria (AIC), Bayesian information criteria (BIC), log-likelihood (LL), and R2 were used to evaluate the performance of the models. For the Survival Regression model, P and Z values supported the non-rejection of the null hypothesis for mixed gender without interaction and supported the rejection of the same for mixed gender with interaction term and males aged 50 - 60 years. Both Parameters supported the non-rejection of the null hypothesis in the rest of the age groups. For Gender male with interaction both P and Z values supported rejection in all the age groups except the age group 20 - 30 years. For Cox Proportional hazard and AFT models, both P and Z values supported the non-rejection of the null hypothesis across all age groups. The P-values for the three models supported different decisions for and against the Null hypothesis with AFT and Cox values supporting similar decisions in most of the age groups. Among the models considered, the regression assumption provided a superior fit based on (AIC), (BIC), (LL), and R2 Model identification criteria. This was particularly evident in age and gender subgroups where the data exhibited non-proportional hazards and violated the assumptions required for the Cox Proportional Hazard model. Moreover, the simplicity of the regression model, along with its ability to capture essential state transitions without over fitting, made it a more appropriate choice. 展开更多
关键词 markov Chain markov process semi markov process markov decision Tree Stochastic process Survival Rate CD4+ Levels Absorption Rates AFT Model PH Model
下载PDF
平均奖赏强化学习算法研究 被引量:38
13
作者 高阳 周如益 +1 位作者 王皓 曹志新 《计算机学报》 EI CSCD 北大核心 2007年第8期1372-1378,共7页
顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证... 顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证明了平均奖赏强化学习的逼近定理.通过逼近相对参考状态的性能势值函数,研究一个新的平均奖赏强化学习算法——G-学习算法.G-学习算法既可以用于MDP,也可以用于SMDP.不同于经典的R-学习算法,G-学习算法采用相对参考状态的性能势值函数替代相对平均奖赏和的相对值函数.在顾客访问控制和生产库存仿真实验中,G-学习算法表现出优于R-学习算法和SMART算法的性能. 展开更多
关键词 平均奖赏强化学习 性能势 G-学习 马尔可夫决策过程 半马尔可夫决策过程
下载PDF
基于半马尔科夫决策过程的风力机状态维修优化 被引量:29
14
作者 苏春 周小荃 《机械工程学报》 EI CAS CSCD 北大核心 2012年第2期44-49,共6页
恶劣的工作环境、昂贵的维修成本和停机损失对风力机及其部件的维修提出挑战。以齿轮箱、叶片等风力机核心机械部件为对象,将部件退化过程离散成有限的退化状态;以长期折扣成本最低为目标,考虑风速、备件物流、停机损失等因素的影响,建... 恶劣的工作环境、昂贵的维修成本和停机损失对风力机及其部件的维修提出挑战。以齿轮箱、叶片等风力机核心机械部件为对象,将部件退化过程离散成有限的退化状态;以长期折扣成本最低为目标,考虑风速、备件物流、停机损失等因素的影响,建立基于半马尔科夫决策过程的状态维修优化模型。分析各退化状态下的维修策略、检测间隔时间以及不同退化状态间的转移概率,并采用策略迭代算法求解模型。以某风力机齿轮箱为例,通过对等周期、非等周期检测条件下检测间隔时间和维修成本的分析,得到优化的维修决策。研究结果表明,该模型能有效描述风力机核心部件的退化过程,实现风力机维修优化。 展开更多
关键词 风力机 半马尔科夫决策过程 状态维修 策略迭代
下载PDF
不确定SMDP基于全局优化的鲁棒决策问题 被引量:4
15
作者 刘春 唐昊 程文娟 《系统仿真学报》 EI CAS CSCD 北大核心 2005年第11期2704-2707,共4页
考虑半马尔可夫决策过程(SMDP)在一些系统参数不确定,且性能函数依赖于这些参数时的鲁棒决策问题。这些参数的不确定性不仅导致等价无穷小生成子的不确定性,也导致性能函数的不确定性。论文针对相关参数的情况,分别采用不同的全局优化算... 考虑半马尔可夫决策过程(SMDP)在一些系统参数不确定,且性能函数依赖于这些参数时的鲁棒决策问题。这些参数的不确定性不仅导致等价无穷小生成子的不确定性,也导致性能函数的不确定性。论文针对相关参数的情况,分别采用不同的全局优化算法,即填充函数法和模拟退火算法,进行鲁棒控制策略求解。仿真实例说明,全局优化方法的使用保证了平均准则和折扣准则下的计算结果之间当折扣因子趋近于零时的极限关系成立。 展开更多
关键词 半马尔可夫决策过程 性能势 鲁棒决策 全局优化
下载PDF
分层强化学习研究进展 被引量:7
16
作者 彭志平 李绍平 《计算机应用研究》 CSCD 北大核心 2008年第4期974-978,共5页
首先介绍了半马尔可夫决策过程、分层与抽象等分层强化学习的理论基础;其次,较全面地比较HAM、options、MAXQ和HEXQ四种典型的学习方法,从典型学习方法的拓展、学习分层、部分感知马尔可夫决策过程、并发和多agent合作等方面讨论分层强... 首先介绍了半马尔可夫决策过程、分层与抽象等分层强化学习的理论基础;其次,较全面地比较HAM、options、MAXQ和HEXQ四种典型的学习方法,从典型学习方法的拓展、学习分层、部分感知马尔可夫决策过程、并发和多agent合作等方面讨论分层强化学习的研究现状;最后指出分层强化学习未来的发展方向。 展开更多
关键词 分层强化学习 半马尔可夫决策过程 抽象
下载PDF
基于半马尔科夫决策过程的视频传输拥塞控制算法 被引量:3
17
作者 田波 杨宜民 蔡述庭 《通信学报》 EI CSCD 北大核心 2014年第8期154-161,共8页
针对传输控制协议(TCP,transmission control protocol)的拥塞控制算法未能满足视频传输质量要求的问题,提出了一种基于半马尔科夫决策过程的视频传输拥塞控制算法。首先,为克服目前基于峰值信噪比的视频质量评估方法实时性低的缺点,设... 针对传输控制协议(TCP,transmission control protocol)的拥塞控制算法未能满足视频传输质量要求的问题,提出了一种基于半马尔科夫决策过程的视频传输拥塞控制算法。首先,为克服目前基于峰值信噪比的视频质量评估方法实时性低的缺点,设计了一种可在线运行的无参考视频质量评估方法。其次,根据接收端视频质量的反馈,采用半马尔科夫决策过程对拥塞控制进行建模,并通过求解此模型得到拥塞控制参数的调整策略。仿真实验结果表明,与目前典型的拥塞控制算法相比,该算法不但具备更好的TCP友好性,而且有效地提高了解码后视频序列的主观和客观质量。 展开更多
关键词 拥塞控制 视频传输 视频质量评估 半马尔科夫决策过程
下载PDF
基于SMDP的虚拟化无线传感网络资源分配策略 被引量:6
18
作者 王汝言 李宏娟 李红霞 《太赫兹科学与电子信息学报》 北大核心 2020年第1期66-71,共6页
针对传统无线传感网络(WSN)中资源部署与特定任务的耦合关系密切从而造成较低的资源利用率问题,将虚拟化技术引入WSN,提出基于半马尔科夫决策过程(SMDP)的资源分配策略。定义虚拟化WSN的状态集、行为集、状态转移概率,考虑传感网能量受... 针对传统无线传感网络(WSN)中资源部署与特定任务的耦合关系密切从而造成较低的资源利用率问题,将虚拟化技术引入WSN,提出基于半马尔科夫决策过程(SMDP)的资源分配策略。定义虚拟化WSN的状态集、行为集、状态转移概率,考虑传感网能量受限以及完成虚拟传感网络请求(VSNR)的时间,给出奖励的表达式,并使用值迭代的方法求解特定状态下的行为,在提高资源利用率的同时最大化网络资源提供者的长期收益。数值结果表明,所提的资源分配策略能有效提高资源提供者的收益。 展开更多
关键词 无线传感网络 虚拟化 资源分配 半马尔科夫决策过程
下载PDF
可变服务率模式下基于需求驱动的传送带给料加工站系统的优化控制 被引量:2
19
作者 唐昊 许玲玲 +1 位作者 周雷 谭琦 《控制理论与应用》 EI CAS CSCD 北大核心 2015年第6期810-816,共7页
本文主要研究可变服务率模式下基于需求驱动的传送带给料加工站(CSPS)系统的优化控制问题,主要目标是对系统的随机优化控制问题进行建模和提供解决方案.论文以缓冲库和成品库剩余容量为联合状态,以站点前视距离和工件服务率为控制变量,... 本文主要研究可变服务率模式下基于需求驱动的传送带给料加工站(CSPS)系统的优化控制问题,主要目标是对系统的随机优化控制问题进行建模和提供解决方案.论文以缓冲库和成品库剩余容量为联合状态,以站点前视距离和工件服务率为控制变量,将其最优控制问题描述为半马尔科夫决策过程(SMDP)模型.该模型为利用策略迭代等方法求解系统在平均准则或折扣准则下的最优控制策略提供了理论基础,特别地,据此可引入基于模拟退火思想的Q学习算法等优化方法来寻求近似解,以克服理论求解过程中的维数灾和建模难等困难.仿真结果说明了本文建立的数学模型及给出的优化方法的有效性. 展开更多
关键词 传送带给料加工站 可变服务率 半马尔科夫决策过程 Q学习
下载PDF
基于PH分布近似的系统维修优化模型研究 被引量:3
20
作者 程志君 杨征 郭波 《系统工程学报》 CSCD 北大核心 2010年第1期137-144,共8页
针对故障信息监测下的多状态劣化系统,建立了一类基于PH分布近似的视情维修优化模型,解决了同一模型中检测与预防性维修策略综合优化的问题.考虑到一般分布假设带来的建模与计算困难,提出了一类位相型(PH)分布近似方法,借助于PH分布良... 针对故障信息监测下的多状态劣化系统,建立了一类基于PH分布近似的视情维修优化模型,解决了同一模型中检测与预防性维修策略综合优化的问题.考虑到一般分布假设带来的建模与计算困难,提出了一类位相型(PH)分布近似方法,借助于PH分布良好的计算特性简化求解过程.由于该方法扩展了原有决策模型的状态空间,为了获得适用于原有模型假设条件的检测与维修优化策略,提出了一种改进的值迭代算法.运用该算法,可以确定系统最佳的预防性维修控制限和检测策略,保证其长期运行条件下的平均费用率最低.最后,通过具体算例验证了模型与迭代算法的可行性. 展开更多
关键词 劣化系统 视情维修 半马氏决策过程 位相型分布
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部