期刊文献+
共找到35篇文章
< 1 2 >
每页显示 20 50 100
连续时间马尔可夫决策过程的折扣模型
1
作者 郭先平 戴永隆 《数学学报(中文版)》 SCIE CSCD 北大核心 2002年第1期171-182,共12页
本文考虑的是转移速率族任意且费用率函数可能无界的连续时间马尔可夫决策过程的折扣模型.放弃了传统的要求相应于每个策略的 Q -过程唯一等条件,而首次考虑相应每个策略的 Q -过程不一定唯一, 转移速率族也不一定保守, ... 本文考虑的是转移速率族任意且费用率函数可能无界的连续时间马尔可夫决策过程的折扣模型.放弃了传统的要求相应于每个策略的 Q -过程唯一等条件,而首次考虑相应每个策略的 Q -过程不一定唯一, 转移速率族也不一定保守, 费用率函数可能无界, 且允许行动空间非空任意的情形. 本文首次用"α-折扣费用最优不等式"更新了传统的α-折扣费用最优方程,并用"最优不等式"和新的方法,不仅证明了传统的主要结果即最优平稳策略的存在性, 而且还进一步探讨了( ∈>0  )-最优平稳策略,具有单调性质的最优平稳策略, 以及(∈≥0) -最优决策过程的存在性, 得到了一些有意义的新结果. 最后, 提供了一个迁移率受控的生灭系统例子, 它满足本文的所有条件, 而传统的假设(见文献[1-14])均不成立. 展开更多
关键词 Q-过程 无界费用 单调最优策略 连续时间马尔可夫决策过程 折扣模型
原文传递
基于连续时间半马尔可夫决策过程的Option算法 被引量:2
2
作者 唐昊 张晓艳 +1 位作者 韩江洪 周雷 《计算机学报》 EI CSCD 北大核心 2014年第9期2027-2037,共11页
针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过... 针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可有效加速策略学习过程.其中,Option方法可将系统目标任务分解成多个子目标任务来学习和执行,层次化结构清晰,是具有代表性的HRL方法之一.传统的Option算法主要是建立在离散时间半马尔可夫决策过程(Semi-Markov Decision Processes,SMDP)和折扣性能准则基础上,无法直接用于解决连续时间无穷任务问题.因此本文在连续时间SMDP框架及其性能势理论下,结合现有的Option算法思想,运用连续时间SMDP的相关学习公式,建立一种适用于平均或折扣性能准则的连续时间统一Option分层强化学习模型,并给出相应的在线学习优化算法.最后通过机器人垃圾收集系统为仿真实例,说明了这种HRL算法在解决连续时间无穷任务优化控制问题方面的有效性,同时也说明其与连续时间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快的优势. 展开更多
关键词 连续时间半Markov决策过程 分层强化学习 Q学习
下载PDF
基于连续时间马尔可夫过程的证券投资策略 被引量:1
3
作者 崔海波 赵希男 +1 位作者 梁好 潘德惠 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2003年第11期1100-1103,共4页
在假设股票价格所处状态间的转移概率连续变化情况下,得到了股票价格转移概率的常微分方程组;考虑股票在不同状态之间转移所获得报酬及股票在状态发生转移之前单位时间所获得的报酬的情况下,给出了股票在不同状态之间发生转移的总期望... 在假设股票价格所处状态间的转移概率连续变化情况下,得到了股票价格转移概率的常微分方程组;考虑股票在不同状态之间转移所获得报酬及股票在状态发生转移之前单位时间所获得的报酬的情况下,给出了股票在不同状态之间发生转移的总期望报酬模型·通过对总期望报酬模型进行变换得到了策略改进算法·同时得到了转移系数矩阵一般表达式,给出了针对具体股票状态转移时间间隔的指数分布并对其进行了估计· 展开更多
关键词 证券投资策略 连续时间马尔可夫过程 转移系数矩阵 报酬 决策
下载PDF
基于马尔可夫决策过程的MES系统动态调度方法 被引量:2
4
作者 赵海峰 姜兴宇 +1 位作者 王贵和 王宛山 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第8期1178-1181,共4页
针对以事件为驱动的网络化制造环境下生产系统的特征,扩展马尔可夫决策过程,根据生产制造的特点进行动态生产调度方法的研究.以面向用户标准为基础,用制造系统响应时间来评价调度算法在不同规则下具有的性能特点;根据分析结果分别确定... 针对以事件为驱动的网络化制造环境下生产系统的特征,扩展马尔可夫决策过程,根据生产制造的特点进行动态生产调度方法的研究.以面向用户标准为基础,用制造系统响应时间来评价调度算法在不同规则下具有的性能特点;根据分析结果分别确定各种调度规则在预期时间内能够达到生产优化调度或满意调度的可能程度.将调度规则与实际生产相结合,设计网络化制造环境下动态调度指令单管理系统,实现制造管理的信息化.本系统可以按照用户需求实时反映生产制造信息;根据企业情况确定调度规则,生成调度决策方案,最大程度保证企业利益. 展开更多
关键词 网络化制造 马尔可夫决策过程 制造执行系统(MES) 动态调度 系统响应时间 指令单管理
下载PDF
连续时间部分可观Markov决策过程的策略梯度估计 被引量:1
5
作者 唐波 李衍杰 殷保群 《控制理论与应用》 EI CAS CSCD 北大核心 2009年第7期805-808,共4页
针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数... 针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用. 展开更多
关键词 连续时间部分可观Markov决策过程 策略梯度估计 一致化 误差界
下载PDF
连续时间马氏决策过程——最优策略对折扣因子的灵敏度分析 被引量:1
6
作者 朱益民 《浙江工业大学学报》 CAS 1999年第2期155-159,共5页
讨论了连续时间马氏决策过程中最优平稳策略对折扣因子的灵敏度问题,并将之化为一个多项式问题来求解。
关键词 马氏决策过程 最优策略 连续时间
下载PDF
半马氏环境连续时间马氏决策过程:平均准则
7
作者 徐晨 甘小冰 《数学研究》 CSCD 1998年第3期312-318,共7页
本文讨论半马氏环境连续时间马氏决策过程中的平均准则.首先讨论了半马氏报酬过程中的逼近问题,进而讨论平均目标函数逼近问题。
关键词 马氏环境 逼近问题 连续时间 平均 目标函数 准则 报酬 决策过程
全文增补中
随机模型检测连续时间Markov过程 被引量:2
8
作者 钮俊 曾国荪 +1 位作者 吕新荣 徐畅 《计算机科学》 CSCD 北大核心 2011年第9期112-115,125,共5页
功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision proc... 功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision process)能够统一刻画复杂系统的概率选择、随机时间及不确定性等重要特征。提出用CT-MDP作为系统定性验证和定量分析模型,将复杂系统的功能验证和性能分析转化为CTMDP中的可达概率求解,并证明验证过程的正确性,最终借助模型检测器MRMC(Markov Reward Model Checker)实现模型检测。理论分析表明,提出的针对CTMDP模型的验证需求是必要的,验证思路和方法具有可行性。 展开更多
关键词 功能性能 连续时间Markov决策过程 模型检测 可信验证 可达概率
下载PDF
Q(f)-过程非唯一时连续时间折扣目标MDP
9
作者 郭先平 《湖南师范大学自然科学学报》 CAS 1996年第3期7-12,共6页
考虑的是可数状态空间连续时间MDP的折扣模型,与以往不同的是,我们放弃了由策略f所确定的Q(f)-过程唯一的传统假设.而首次考虑Q(f)-过程非唯一的情形,借助于Q-过程的构造理论,用拓扑分析的方法,证明了最优策略的... 考虑的是可数状态空间连续时间MDP的折扣模型,与以往不同的是,我们放弃了由策略f所确定的Q(f)-过程唯一的传统假设.而首次考虑Q(f)-过程非唯一的情形,借助于Q-过程的构造理论,用拓扑分析的方法,证明了最优策略的存在性. 展开更多
关键词 连续时间 折扣目标 Q过程 马氏决策规划
下载PDF
连续时间可重入生产系统调度策略灵敏度分析 被引量:2
10
作者 王利存 郑应平 《计算机集成制造系统-CIMS》 EI CSCD 北大核心 2001年第2期10-14,共5页
对平均费用型连续时间马尔可夫过程 ,由其泊松方程 ,推导了系统品质指标对系统参数的梯度公式 ,并给出了相应的梯度估计算法 ;对可重入排队网络建立马尔可夫模型 ,通过仿真单个样本轨迹 ,应用给出的算法 ,研究了连续时间可重入生产系统... 对平均费用型连续时间马尔可夫过程 ,由其泊松方程 ,推导了系统品质指标对系统参数的梯度公式 ,并给出了相应的梯度估计算法 ;对可重入排队网络建立马尔可夫模型 ,通过仿真单个样本轨迹 ,应用给出的算法 ,研究了连续时间可重入生产系统品质指标对参数的灵敏度。 展开更多
关键词 可重入生产系统 调度策略 灵敏度分析 连续时间 马尔可夫过程
下载PDF
基于深度强化学习的新能源配电网双时间尺度无功电压优化 被引量:6
11
作者 李鹏 姜磊 +2 位作者 王加浩 夏辉 潘有朋 《中国电机工程学报》 EI CSCD 北大核心 2023年第16期6255-6265,共11页
新能源大量接入配电网,其波动性及间歇性容易导致配电网电压的频繁波动问题。传统基于模型的无功电压优化方法高度依托于电网的精准建模,其求解精度与计算速度难以满足含新能源配电网对于电压控制的要求。该文基于深度强化学习,提出一... 新能源大量接入配电网,其波动性及间歇性容易导致配电网电压的频繁波动问题。传统基于模型的无功电压优化方法高度依托于电网的精准建模,其求解精度与计算速度难以满足含新能源配电网对于电压控制的要求。该文基于深度强化学习,提出一种双时间尺度配电网无功电压优化方法。该方法将电力系统无功电压优化问题转化为马尔可夫决策过程,统筹考虑无功补偿设备的差异化调节特性和不同深度强化学习算法的特点,设计针对离散型设备和连续型设备协调控制的双时间尺度优化方案。其中,长时间尺度上制定并联电容器组投切计划,以调整电压偏移,同时最小化全系统网损;短时间尺度上设置滚动预测窗,制定SVG出力计划,以跟踪电压变化,解决新能源并网带来的配电网电压频繁波动问题。最后通过IEEE33节点拓展系统验证该数据驱动方案在无功电压优化的实现速度和效果上所具有的优势。 展开更多
关键词 新能源配电网 深度强化学习 时间尺度 无功电压优化 马尔可夫决策过程
下载PDF
基于随机恢复时间的骨盆骨折创伤患者手术分配优化
12
作者 李清 苏强 邓国英 《运筹与管理》 CSCD 北大核心 2023年第8期51-56,共6页
骨盆骨折是一种高能量创伤且通常伴有多发伤,手术是主要的治疗方法,本文制定并优化创伤患者的手术分配计划。首先根据患者入院时的生命稳定状态,将手术患者分为恢复期和计划期两类;针对两类患者的不同特点,为恢复期患者设置随机恢复时间... 骨盆骨折是一种高能量创伤且通常伴有多发伤,手术是主要的治疗方法,本文制定并优化创伤患者的手术分配计划。首先根据患者入院时的生命稳定状态,将手术患者分为恢复期和计划期两类;针对两类患者的不同特点,为恢复期患者设置随机恢复时间,以最大期望收益为目标建立马尔可夫决策过程模型;根据医院实际情况设计实验,采用后向迭代算法求解得到最优分配策略;改变惩罚函数形式和恢复期患者数量,制定不同场景的分配策略,提高医疗资源利用率。采用二次惩罚函数时,最优分配曲线呈现开关曲线形式;恢复期患者数量越多,其享有的优先权越高。 展开更多
关键词 骨盆骨折 马尔可夫决策过程 随机恢复时间
下载PDF
火控相控阵雷达的时间资源管理算法 被引量:8
13
作者 秦童 戴奉周 +1 位作者 刘宏伟 方明 《系统工程与电子技术》 EI CSCD 北大核心 2016年第3期545-550,共6页
对于火控相控阵雷达,可以灵活地调整波束的指向方向,从而调整雷达用于跟踪的时间资源。针对这样的特性,提出了一种雷达用于跟踪的时间资源的管理算法,以提升雷达最大可跟踪目标的数量。该文以概率密度函数来描述雷达对目标的跟踪误差,... 对于火控相控阵雷达,可以灵活地调整波束的指向方向,从而调整雷达用于跟踪的时间资源。针对这样的特性,提出了一种雷达用于跟踪的时间资源的管理算法,以提升雷达最大可跟踪目标的数量。该文以概率密度函数来描述雷达对目标的跟踪误差,综合考虑了测距与测速精度对跟踪误差产生影响。而后,采用马尔可夫决策的方法,对雷达照射目标的驻留时间与重访时间间隔进行求解。仿真结果表明,对于雷达场景中的目标数量较大情况下,相对于传统的雷达时间资源管理方法,该文提出的方法在保证跟踪精度符合要求的前提下,能够有效提高雷达最大可跟踪目标的数量。 展开更多
关键词 火控相控阵雷达 时间资源管理 马尔可夫决策过程
下载PDF
企业知识系统柔性战略的决策模型 被引量:14
14
作者 张新武 刘仲英 《管理科学学报》 CSSCI 2002年第6期65-70,共6页
通过形式化的模型,利用马尔可夫链过程描述企业知识状态的转移,通过对不同知识战略变化的净现值比较,得出知识战略的优劣.从柔性的时间维度与范围维度研究企业在3类不同知识状态下,所采用的知识状态变化的战略决策.
关键词 柔性战略 企业知识系统 决策模型 马尔可夫过程 时间维度 范围维度 净现值
下载PDF
耦合级联失效系统可靠性建模与分析
15
作者 王琦 贾旭杰 +1 位作者 翁宇如 田美玉 《运筹与管理》 CSCD 北大核心 2024年第1期90-94,共5页
现实生活中绝大多数系统并不是孤立存在的,如通信网和电网,它们相互依存、相互影响,这种系统间的耦合关系使得级联失效范围变得更广,导致级联过程更为复杂,从而影响整个系统可靠性及其正常运行。针对此问题,论文以电力通信系统为研究背... 现实生活中绝大多数系统并不是孤立存在的,如通信网和电网,它们相互依存、相互影响,这种系统间的耦合关系使得级联失效范围变得更广,导致级联过程更为复杂,从而影响整个系统可靠性及其正常运行。针对此问题,论文以电力通信系统为研究背景,给出了耦合系统转移率的解析表达,分析了元件负载增加影响元件故障率的级联失效效应和子系统间的相依关系,建立了耦合级联失效系统的可靠性模型,并证明了系统可靠度的计算方法和解析式结果。并且利用一个算例展示了耦合系统发生级联失效的具体过程,以验证该方法的有效性与可行性。本文为基于负载和时间的耦合系统的级联研究提供了新的思路,可拓展至不同的耦合关系、耦合强度以及不同的负载分配模式来进一步研究系统的级联失效过程以及可靠度分析。 展开更多
关键词 相依关系 耦合系统 级联失效 连续时间马尔可夫过程 可靠度
下载PDF
Polish空间上的折扣马氏过程量子化策略的渐近优化
16
作者 吴晓 孔荫莹 郭圳滨 《数学物理学报(A辑)》 CSCD 北大核心 2022年第2期594-604,共11页
该文研究了Polish空间上、带折扣因子的连续时间马尔可夫决策过程(CTMDPs)的量子化平稳策略的渐近最优性问题.首先,建立了折扣最优方程(DOE)及其解的存在性和唯一性.其次,在适当的条件下证明了最优确定性平稳策略的存在性.此外,为了对... 该文研究了Polish空间上、带折扣因子的连续时间马尔可夫决策过程(CTMDPs)的量子化平稳策略的渐近最优性问题.首先,建立了折扣最优方程(DOE)及其解的存在性和唯一性.其次,在适当的条件下证明了最优确定性平稳策略的存在性.此外,为了对行动空间进行离散化,构造了一列量子化策略,利用有限行动空间的策略来逼近一般(Polish)空间上的折扣CTMDPs最优平稳策略.最后,通过一个例子来说明该文的渐近逼近结果. 展开更多
关键词 连续时间马尔可夫决策过程 依赖状态折扣因子 折扣准则 量子化平稳策略 渐近最优性
下载PDF
连续时间马氏决策过程的基本假设
17
作者 刘建庸 胡奇英 王军明 《应用数学学报》 CSCD 北大核心 2004年第4期756-759,共4页
在讨论连续时间马氏决策过程(CTMDP)的文献中,对于转移速率qij(t),常见的假设是:(a)qij(t)是一致有界的^[1-4];(b)qij(t)关于t是连续的,或者是几乎处处连续的^[4-8]。在本文中,我们放弃了对qij(t)的上述假设(a)和(b),给出了一些... 在讨论连续时间马氏决策过程(CTMDP)的文献中,对于转移速率qij(t),常见的假设是:(a)qij(t)是一致有界的^[1-4];(b)qij(t)关于t是连续的,或者是几乎处处连续的^[4-8]。在本文中,我们放弃了对qij(t)的上述假设(a)和(b),给出了一些较弱的基本假设以取代(a),(b),使CTMDP的研究范围得以扩大。 展开更多
关键词 连续时间 一致有界 基本假设 取代 速率 扩大 决策过程 转移 研究范围
原文传递
配电系统双时间尺度电压管理的深度强化学习方法 被引量:5
18
作者 冯昌森 张瑜 +3 位作者 谢路耀 文福拴 张凯怡 张有兵 《电力系统自动化》 EI CSCD 北大核心 2022年第12期202-209,共8页
随着可再生能源发电渗透率的不断增大,配电系统的电压越限问题愈发频繁,亟需高效的电压管理策略以保证配电系统的安全经济运行。首先,文中建立了双时间尺度的配电系统电压管理模型,实现不同时间响应特性的调压设备协调控制。然后,将2个... 随着可再生能源发电渗透率的不断增大,配电系统的电压越限问题愈发频繁,亟需高效的电压管理策略以保证配电系统的安全经济运行。首先,文中建立了双时间尺度的配电系统电压管理模型,实现不同时间响应特性的调压设备协调控制。然后,将2个时间尺度的电压管理模型建模为马尔可夫决策过程,在有效考虑两者的时间耦合关系和可控设备物理特性的基础上,分别利用多智能体深度确定性策略梯度算法和双深度Q网络算法求解模型,实现了双时间尺度的实时电压管理。最后,基于IEEE 33节点配电系统进行算例分析,验证了所提模型和方法的有效性。 展开更多
关键词 配电系统 电压管理 可再生能源发电 时间尺度 马尔可夫决策过程 深度强化学习
下载PDF
考虑不确定因素的多模式城市交通网络路径决策 被引量:4
19
作者 李浩楠 曹成铉 +1 位作者 柳雨彤 冯紫嫣 《科学技术与工程》 北大核心 2019年第12期319-324,共6页
由于时间的波动性与突发事件的影响,多模式城市交通网络的运行时常伴随着各种不确定性情况的发生。通过考虑多模式交通网络的出行特点与交通网络不同的运行状态,建立了基于马尔可夫决策过程的多模式交通网络的路线决策模型与算法,所提... 由于时间的波动性与突发事件的影响,多模式城市交通网络的运行时常伴随着各种不确定性情况的发生。通过考虑多模式交通网络的出行特点与交通网络不同的运行状态,建立了基于马尔可夫决策过程的多模式交通网络的路线决策模型与算法,所提方法应用到北京市多模式城市交通网络。结果显示,不同出发时间需要不同的路径决策以达到最小出行时间。基于马尔可夫决策过程的路径决策方法的有效性得到验证,它可以为出行者路线选择提供更合理的指示。 展开更多
关键词 多模式交通网络 路线决策 马尔可夫决策过程 出行时间
下载PDF
基于强化学习方法的航班滑出时间预测研究
20
作者 杜婧涵 胡明华 +1 位作者 尹嘉男 张魏宁 《航空计算技术》 2022年第6期26-29,34,共5页
航班的滑出时间是描述机场场面运行状态和周转效率的关键指标,其不确定性会降低航班到达目的机场的可预见性,进而带来航空资源的低效利用和燃油耗费问题。研究了一种基于强化学习的航班滑出时间预测模型。从交通状态和时序特性方面分析... 航班的滑出时间是描述机场场面运行状态和周转效率的关键指标,其不确定性会降低航班到达目的机场的可预见性,进而带来航空资源的低效利用和燃油耗费问题。研究了一种基于强化学习的航班滑出时间预测模型。从交通状态和时序特性方面分析并提取影响滑出时间的主要特征集;利用马尔科夫决策过程建模滑出时间预测问题,并通过强化学习算法进行模型训练和测试。在真实机场场面运行数据中进行的实验表明,所提出方法不仅能够准确预测单个航班的滑出时间,还能够捕捉机场场面整体的滑行态势的变化情况,为智慧机场的建设提供新思路。 展开更多
关键词 机场场面 智慧机场 航班滑出时间 强化学习 马尔可夫决策过程
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部