期刊文献+
共找到926篇文章
< 1 2 47 >
每页显示 20 50 100
Modeling and Design of Real-Time Pricing Systems Based on Markov Decision Processes 被引量:4
1
作者 Koichi Kobayashi Ichiro Maruta +1 位作者 Kazunori Sakurama Shun-ichi Azuma 《Applied Mathematics》 2014年第10期1485-1495,共11页
A real-time pricing system of electricity is a system that charges different electricity prices for different hours of the day and for different days, and is effective for reducing the peak and flattening the load cur... A real-time pricing system of electricity is a system that charges different electricity prices for different hours of the day and for different days, and is effective for reducing the peak and flattening the load curve. In this paper, using a Markov decision process (MDP), we propose a modeling method and an optimal control method for real-time pricing systems. First, the outline of real-time pricing systems is explained. Next, a model of a set of customers is derived as a multi-agent MDP. Furthermore, the optimal control problem is formulated, and is reduced to a quadratic programming problem. Finally, a numerical simulation is presented. 展开更多
关键词 markov decision PROCESS OPTIMAL Control REAL-TIME PRICING System
下载PDF
Robust analysis of discounted Markov decision processes with uncertain transition probabilities 被引量:3
2
作者 LOU Zhen-kai HOU Fu-jun LOU Xu-ming 《Applied Mathematics(A Journal of Chinese Universities)》 SCIE CSCD 2020年第4期417-436,共20页
Optimal policies in Markov decision problems may be quite sensitive with regard to transition probabilities.In practice,some transition probabilities may be uncertain.The goals of the present study are to find the rob... Optimal policies in Markov decision problems may be quite sensitive with regard to transition probabilities.In practice,some transition probabilities may be uncertain.The goals of the present study are to find the robust range for a certain optimal policy and to obtain value intervals of exact transition probabilities.Our research yields powerful contributions for Markov decision processes(MDPs)with uncertain transition probabilities.We first propose a method for estimating unknown transition probabilities based on maximum likelihood.Since the estimation may be far from accurate,and the highest expected total reward of the MDP may be sensitive to these transition probabilities,we analyze the robustness of an optimal policy and propose an approach for robust analysis.After giving the definition of a robust optimal policy with uncertain transition probabilities represented as sets of numbers,we formulate a model to obtain the optimal policy.Finally,we define the value intervals of the exact transition probabilities and construct models to determine the lower and upper bounds.Numerical examples are given to show the practicability of our methods. 展开更多
关键词 markov decision processes uncertain transition probabilities robustness and sensitivity robust optimal policy value interval
下载PDF
Variance minimization for continuous-time Markov decision processes: two approaches 被引量:1
3
作者 ZHU Quan-xin 《Applied Mathematics(A Journal of Chinese Universities)》 SCIE CSCD 2010年第4期400-410,共11页
This paper studies the limit average variance criterion for continuous-time Markov decision processes in Polish spaces. Based on two approaches, this paper proves not only the existence of solutions to the variance mi... This paper studies the limit average variance criterion for continuous-time Markov decision processes in Polish spaces. Based on two approaches, this paper proves not only the existence of solutions to the variance minimization optimality equation and the existence of a variance minimal policy that is canonical, but also the existence of solutions to the two variance minimization optimality inequalities and the existence of a variance minimal policy which may not be canonical. An example is given to illustrate all of our conditions. 展开更多
关键词 Continuous-time markov decision process Polish space variance minimization optimality equation optimality inequality.
下载PDF
Variance Optimization for Continuous-Time Markov Decision Processes
4
作者 Yaqing Fu 《Open Journal of Statistics》 2019年第2期181-195,共15页
This paper considers the variance optimization problem of average reward in continuous-time Markov decision process (MDP). It is assumed that the state space is countable and the action space is Borel measurable space... This paper considers the variance optimization problem of average reward in continuous-time Markov decision process (MDP). It is assumed that the state space is countable and the action space is Borel measurable space. The main purpose of this paper is to find the policy with the minimal variance in the deterministic stationary policy space. Unlike the traditional Markov decision process, the cost function in the variance criterion will be affected by future actions. To this end, we convert the variance minimization problem into a standard (MDP) by introducing a concept called pseudo-variance. Further, by giving the policy iterative algorithm of pseudo-variance optimization problem, the optimal policy of the original variance optimization problem is derived, and a sufficient condition for the variance optimal policy is given. Finally, we use an example to illustrate the conclusion of this paper. 展开更多
关键词 CONTINUOUS-TIME markov decision Process Variance OPTIMALITY of Average REWARD Optimal POLICY of Variance POLICY ITERATION
下载PDF
Adaptive Strategies for Accelerating the Convergence of Average Cost Markov Decision Processes Using a Moving Average Digital Filter
5
作者 Edilson F. Arruda Fabrício Ourique 《American Journal of Operations Research》 2013年第6期514-520,共7页
This paper proposes a technique to accelerate the convergence of the value iteration algorithm applied to discrete average cost Markov decision processes. An adaptive partial information value iteration algorithm is p... This paper proposes a technique to accelerate the convergence of the value iteration algorithm applied to discrete average cost Markov decision processes. An adaptive partial information value iteration algorithm is proposed that updates an increasingly accurate approximate version of the original problem with a view to saving computations at the early iterations, when one is typically far from the optimal solution. The proposed algorithm is compared to classical value iteration for a broad set of adaptive parameters and the results suggest that significant computational savings can be obtained, while also ensuring a robust performance with respect to the parameters. 展开更多
关键词 AVERAGE Cost markov decision processes Value ITERATION Computational EFFORT GRADIENT
下载PDF
Conditional Value-at-Risk for Random Immediate Reward Variables in Markov Decision Processes
6
作者 Masayuki Kageyama Takayuki Fujii +1 位作者 Koji Kanefuji Hiroe Tsubaki 《American Journal of Computational Mathematics》 2011年第3期183-188,共6页
We consider risk minimization problems for Markov decision processes. From a standpoint of making the risk of random reward variable at each time as small as possible, a risk measure is introduced using conditional va... We consider risk minimization problems for Markov decision processes. From a standpoint of making the risk of random reward variable at each time as small as possible, a risk measure is introduced using conditional value-at-risk for random immediate reward variables in Markov decision processes, under whose risk measure criteria the risk-optimal policies are characterized by the optimality equations for the discounted or average case. As an application, the inventory models are considered. 展开更多
关键词 markov decision processes CONDITIONAL VALUE-AT-RISK Risk Optimal Policy INVENTORY Model
下载PDF
Heterogeneous Network Selection Optimization Algorithm Based on a Markov Decision Model 被引量:8
7
作者 Jianli Xie Wenjuan Gao Cuiran Li 《China Communications》 SCIE CSCD 2020年第2期40-53,共14页
A network selection optimization algorithm based on the Markov decision process(MDP)is proposed so that mobile terminals can always connect to the best wireless network in a heterogeneous network environment.Consideri... A network selection optimization algorithm based on the Markov decision process(MDP)is proposed so that mobile terminals can always connect to the best wireless network in a heterogeneous network environment.Considering the different types of service requirements,the MDP model and its reward function are constructed based on the quality of service(QoS)attribute parameters of the mobile users,and the network attribute weights are calculated by using the analytic hierarchy process(AHP).The network handoff decision condition is designed according to the different types of user services and the time-varying characteristics of the network,and the MDP model is solved by using the genetic algorithm and simulated annealing(GA-SA),thus,users can seamlessly switch to the network with the best long-term expected reward value.Simulation results show that the proposed algorithm has good convergence performance,and can guarantee that users with different service types will obtain satisfactory expected total reward values and have low numbers of network handoffs. 展开更多
关键词 heterogeneous wireless networks markov decision process reward function genetic algorithm simulated annealing
下载PDF
Seeking for Passenger under Dynamic Prices: A Markov Decision Process Approach
8
作者 Qianrong Shen 《Journal of Computer and Communications》 2021年第12期80-97,共18页
In recent years, ride-on-demand (RoD) services such as Uber and Didi are becoming increasingly popular. Different from traditional taxi services, RoD services adopt dynamic pricing mechanisms to manipulate the supply ... In recent years, ride-on-demand (RoD) services such as Uber and Didi are becoming increasingly popular. Different from traditional taxi services, RoD services adopt dynamic pricing mechanisms to manipulate the supply and demand on the road, and such mechanisms improve service capacity and quality. Seeking route recommendation has been widely studied in taxi service. In RoD services, the dynamic price is a new and accurate indicator that represents the supply and demand condition, but it is yet rarely studied in providing clues for drivers to seek for passengers. In this paper, we proposed to incorporate the impacts of dynamic prices as a key factor in recommending seeking routes to drivers. We first showed the importance and need to do that by analyzing real service data. We then designed a Markov Decision Process (MDP) model based on passenger order and car GPS trajectories datasets, and took into account dynamic prices in designing rewards. Results show that our model not only guides drivers to locations with higher prices, but also significantly improves driver revenue. Compared with things with the drivers before using the model, the maximum yield after using it can be increased to 28%. 展开更多
关键词 Ride-on-Demand Service markov decision Process Dynamic Pricing Taxi Services Route Recommendation
下载PDF
基于Markov game模型的装备保障信息网络安全态势感知方法研究 被引量:18
9
作者 李玺 卢昱 +1 位作者 刘森 刘锋 《计算机应用研究》 CSCD 北大核心 2017年第11期3441-3445,共5页
为了提升装备保障信息网络的安全态势感知能力,根据装备保障信息网络的特点,提出了基于Markov决策过程和博弈论思想的网络安全态势评估方法。该方法以Markov game模型为核心,通过求解纳什均衡点确定攻守双方的博弈对网络安全造成的影响... 为了提升装备保障信息网络的安全态势感知能力,根据装备保障信息网络的特点,提出了基于Markov决策过程和博弈论思想的网络安全态势评估方法。该方法以Markov game模型为核心,通过求解纳什均衡点确定攻守双方的博弈对网络安全造成的影响,并利用4级数据融合实现对装备保障信息网络安全态势的评估。实验证明,该方法能够综合各类基础信息,准确给出装备保障信息网络的安全态势值。 展开更多
关键词 装备保障信息网络 安全态势评估 markov决策过程 博弈论
下载PDF
基于Markov决策过程用交叉熵方法优化软件测试 被引量:11
10
作者 张德平 聂长海 徐宝文 《软件学报》 EI CSCD 北大核心 2008年第10期2770-2779,共10页
研究了待测软件某些参数已知的条件下,以最小化平均测试费用为目标的软件测试优化问题.将软件测试过程处理成马尔可夫(Markov)决策过程,给出了软件测试的马尔可夫决策模型,运用交叉熵方法,通过一种学习策略获得软件测试的最优测试剖面,... 研究了待测软件某些参数已知的条件下,以最小化平均测试费用为目标的软件测试优化问题.将软件测试过程处理成马尔可夫(Markov)决策过程,给出了软件测试的马尔可夫决策模型,运用交叉熵方法,通过一种学习策略获得软件测试的最优测试剖面,用于优化软件测试.模拟结果表明,学习策略给出的测试剖面要优于随机测试策略,检测和排除相同数目的软件缺陷,学习策略比随机测试能够显著地减少测试用例数,降低测试成本,提高缺陷检测效率. 展开更多
关键词 软件测试 马尔可夫决策过程 交叉熵方法 最优测试剖面
下载PDF
Markov过程理论在发电商报价策略选择中的应用 被引量:4
11
作者 刘严 谭忠富 +2 位作者 刘明明 杨力俊 王成文 《电工技术学报》 EI CSCD 北大核心 2005年第12期36-42,共7页
在电力市场的环境下,发电商在报价策略选择的过程中将面临许多不确定性因素,如各时段的系统负荷、市场边际价格、对手的报价策略、自身发电成本等,本文从发电商的角度出发对竞价策略的选择问题进行研究,将竞价策略选择的过程设计成为Mar... 在电力市场的环境下,发电商在报价策略选择的过程中将面临许多不确定性因素,如各时段的系统负荷、市场边际价格、对手的报价策略、自身发电成本等,本文从发电商的角度出发对竞价策略的选择问题进行研究,将竞价策略选择的过程设计成为Markov决策过程——一种抽象的随机优化方法,先将每个时段的报价简化为报价参数的选择,利用Markov过程理论对不确定性因素的出现进行概率估计,将发电商报价策略的选择问题表示为离散的随机优化过程—— Markov决策过程;通过使期望收益最大来计算最优策略,从而确定了每个时段发电商报价参数的最优选择,并将报价参数还原成为报价结果。 展开更多
关键词 markov过程 电力市场 竞价策略 决策制定
下载PDF
基于半Markov决策过程的劣化系统检测与维修优化模型 被引量:10
12
作者 程志君 郭波 《自动化学报》 EI CSCD 北大核心 2007年第10期1101-1104,共4页
针对系统劣化阶段持续时间、检测间隔时间和维修时间都服从一般分布的情况,提出了一类基于半马氏决策过程的劣化系统检测与维修优化模型.利用位相型分布近似一般分布简化了求解过程,并提出了相应的改进值迭代算法.最后通过算例验证了模... 针对系统劣化阶段持续时间、检测间隔时间和维修时间都服从一般分布的情况,提出了一类基于半马氏决策过程的劣化系统检测与维修优化模型.利用位相型分布近似一般分布简化了求解过程,并提出了相应的改进值迭代算法.最后通过算例验证了模型与迭代算法的可行性. 展开更多
关键词 劣化系统 半马氏决策过程 位相型分布 检测与维修
下载PDF
连续时间Markov决策过程在呼叫接入控制中的应用 被引量:3
13
作者 周亚平 奚宏生 +1 位作者 殷保群 唐昊 《控制与决策》 EI CSCD 北大核心 2001年第B11期795-799,共5页
应用 Markov决策过程与性能势相结合的方法 ,给出了呼叫接入控制的策略优化算法。所得到的最优策略是状态相关的策略 ,与基于节点已占用带宽决定行动的策略相比 ,状态相关策略具有更好的性能值 。
关键词 呼叫接入控制 markov决策过程 策略优化 性能势 排队网络
下载PDF
基于Markov过程的集束型设备预防维护策略 被引量:4
14
作者 綦法群 周炳海 《上海交通大学学报》 EI CAS CSCD 北大核心 2014年第10期1461-1467,共7页
为了更好地保障集束型晶圆制造设备运行的可靠性,同时考虑维护的经济性,建立了基于Markov过程的预防性维护策略.根据集束型设备的特点,采用大修和小修相结合的预防性维护方式,同时考虑随机失效和退化失效两种失效形式,建立了状态转移模... 为了更好地保障集束型晶圆制造设备运行的可靠性,同时考虑维护的经济性,建立了基于Markov过程的预防性维护策略.根据集束型设备的特点,采用大修和小修相结合的预防性维护方式,同时考虑随机失效和退化失效两种失效形式,建立了状态转移模型.依据Markov理论求得设备各状态的稳态概率及状态转移概率.再根据Markov决策理论及策略迭代算法求得最佳维护策略.实验结果表明,所提出的预防性维护策略有效可行. 展开更多
关键词 预防性维护 markov过程 markov决策过程 随机失效 退化失效
下载PDF
连续时间Markov决策过程互模拟等价及逻辑保持 被引量:1
15
作者 黄镇谨 陆阳 +1 位作者 杨娟 王智文 《控制理论与应用》 EI CAS CSCD 北大核心 2016年第8期1031-1038,共8页
模型检测中,Markov决策过程可以建模具有不确定性的系统,然而状态空间爆炸问题将会影响系统验证的成败与效率,互模拟等价可以用于系统状态的简约.在强互模拟关系的基础上,给出Markov决策过程模型弱互模拟等价关系的概念,导出了连续时间M... 模型检测中,Markov决策过程可以建模具有不确定性的系统,然而状态空间爆炸问题将会影响系统验证的成败与效率,互模拟等价可以用于系统状态的简约.在强互模拟关系的基础上,给出Markov决策过程模型弱互模拟等价关系的概念,导出了连续时间Markov决策过程及其内嵌离散时间Markov决策过程互模拟等价关系的内在联系;在强互模拟等价关系逻辑特征保持的基础上,给出弱互模拟等价关系下的逻辑保持性质,证明了弱互模拟等价的两个状态,同时满足除下一步算子外的连续随机逻辑公式,从而可以将原模型中的验证问题转换为简约后模型的验证问题,提高验证的效率. 展开更多
关键词 马尔科夫链 马尔科夫决策过程 互模拟等价关系 逻辑保持
下载PDF
随机模型检测连续时间Markov过程 被引量:2
16
作者 钮俊 曾国荪 +1 位作者 吕新荣 徐畅 《计算机科学》 CSCD 北大核心 2011年第9期112-115,125,共5页
功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision proc... 功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision process)能够统一刻画复杂系统的概率选择、随机时间及不确定性等重要特征。提出用CT-MDP作为系统定性验证和定量分析模型,将复杂系统的功能验证和性能分析转化为CTMDP中的可达概率求解,并证明验证过程的正确性,最终借助模型检测器MRMC(Markov Reward Model Checker)实现模型检测。理论分析表明,提出的针对CTMDP模型的验证需求是必要的,验证思路和方法具有可行性。 展开更多
关键词 功能性能 连续时间markov决策过程 模型检测 可信验证 可达概率
下载PDF
Markov决策过程不确定策略特征模式 被引量:2
17
作者 黄镇谨 陆阳 +1 位作者 杨娟 方欢 《计算机科学》 CSCD 北大核心 2013年第4期263-266,共4页
马尔科夫决策过程可以建模具有不确定性特征的复杂系统,而在进行模型分析时需要采用策略对不确定性进行处理。首先,研究不同策略下时空有界可达概率问题,给出不确定性解决策略的定义及分类方法。其次,在时间无关策略下,证明基于确定性... 马尔科夫决策过程可以建模具有不确定性特征的复杂系统,而在进行模型分析时需要采用策略对不确定性进行处理。首先,研究不同策略下时空有界可达概率问题,给出不确定性解决策略的定义及分类方法。其次,在时间无关策略下,证明基于确定性选取动作和随机选取动作的时空有界可达概率的一致性,并且论证了时间依赖策略相对于时间无关策略具有更好的时空有界可达概率。最后结合实例简要阐述了结论的正确性。 展开更多
关键词 马尔科夫决策过程 不确定性策略 时空有界可达概率
下载PDF
一种有限时段Markov决策过程的强化学习算法 被引量:4
18
作者 李春贵 刘永信 《广西工学院学报》 CAS 2003年第1期1-4,共4页
研究有限时段非平稳的 Markov决策过程的强化学习算法。通过引入一个人工吸收状态 ,把有限时段问题变为无限时段问题 ,从而可利用通常的强化学习方法来求解。在文献 [3]提出的算法思想基础上 ,提出了一种新的有限时段非平稳的 Markov决... 研究有限时段非平稳的 Markov决策过程的强化学习算法。通过引入一个人工吸收状态 ,把有限时段问题变为无限时段问题 ,从而可利用通常的强化学习方法来求解。在文献 [3]提出的算法思想基础上 ,提出了一种新的有限时段非平稳的 Markov决策过程的强化学习算法 。 展开更多
关键词 强化学习 有限时段 markov决策过程 无完全模型 库存控制 机器学习 非平稳
下载PDF
半Markov决策过程的数值迭代优化 被引量:2
19
作者 唐昊 吴玉华 周雷 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2006年第1期108-112,共5页
针对半Markov决策过程在紧致行动集上的数值迭代优化,提出了折扣和平均准则下直接基于等价无穷小生成子的统一的标准数值迭代算法,并证明了其收敛性。另外,讨论了两种性能准则下统一的异步数值迭代算法,包括Gauss-Seidel异步迭代和随机... 针对半Markov决策过程在紧致行动集上的数值迭代优化,提出了折扣和平均准则下直接基于等价无穷小生成子的统一的标准数值迭代算法,并证明了其收敛性。另外,讨论了两种性能准则下统一的异步数值迭代算法,包括Gauss-Seidel异步迭代和随机异步迭代,特别是基于样本轨道仿真的数值迭代等,并运用性能势思想对上述算法进行改进。结果表明,该算法可直接适用于连续时间Markov决策过程。最后通过一个数值例子来比较各种算法的特点。 展开更多
关键词 计算机应用 markov决策过程 等价无穷小生成子 异步数值迭代
下载PDF
半Markov决策过程折扣模型与平均模型之间的关系 被引量:1
20
作者 殷保群 李衍杰 +2 位作者 唐昊 代桂平 奚宏生 《控制理论与应用》 EI CAS CSCD 北大核心 2006年第1期65-68,共4页
首先分别在折扣代价与平均代价性能准则下,讨论了一类半M arkov决策问题.基于性能势方法,导出了由最优平稳策略所满足的最优性方程.然后讨论了两种模型之间的关系,表明了平均模型的有关结论,可以通过对折扣模型相应结论取折扣因子趋于... 首先分别在折扣代价与平均代价性能准则下,讨论了一类半M arkov决策问题.基于性能势方法,导出了由最优平稳策略所满足的最优性方程.然后讨论了两种模型之间的关系,表明了平均模型的有关结论,可以通过对折扣模型相应结论取折扣因子趋于零时的极限来得到. 展开更多
关键词 markov决策过程 折扣模型 平均模型 最优性方程 最优平稳策略
下载PDF
上一页 1 2 47 下一页 到第
使用帮助 返回顶部