期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
基于马尔可夫决策过程的MES系统动态调度方法 被引量:2
1
作者 赵海峰 姜兴宇 +1 位作者 王贵和 王宛山 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第8期1178-1181,共4页
针对以事件为驱动的网络化制造环境下生产系统的特征,扩展马尔可夫决策过程,根据生产制造的特点进行动态生产调度方法的研究.以面向用户标准为基础,用制造系统响应时间来评价调度算法在不同规则下具有的性能特点;根据分析结果分别确定... 针对以事件为驱动的网络化制造环境下生产系统的特征,扩展马尔可夫决策过程,根据生产制造的特点进行动态生产调度方法的研究.以面向用户标准为基础,用制造系统响应时间来评价调度算法在不同规则下具有的性能特点;根据分析结果分别确定各种调度规则在预期时间内能够达到生产优化调度或满意调度的可能程度.将调度规则与实际生产相结合,设计网络化制造环境下动态调度指令单管理系统,实现制造管理的信息化.本系统可以按照用户需求实时反映生产制造信息;根据企业情况确定调度规则,生成调度决策方案,最大程度保证企业利益. 展开更多
关键词 网络化制造 马尔可夫决策过程 制造执行系统(MES) 动态调度 系统响应时间 指令单管理
下载PDF
基于连续时间马尔可夫过程的证券投资策略 被引量:1
2
作者 崔海波 赵希男 +1 位作者 梁好 潘德惠 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2003年第11期1100-1103,共4页
在假设股票价格所处状态间的转移概率连续变化情况下,得到了股票价格转移概率的常微分方程组;考虑股票在不同状态之间转移所获得报酬及股票在状态发生转移之前单位时间所获得的报酬的情况下,给出了股票在不同状态之间发生转移的总期望... 在假设股票价格所处状态间的转移概率连续变化情况下,得到了股票价格转移概率的常微分方程组;考虑股票在不同状态之间转移所获得报酬及股票在状态发生转移之前单位时间所获得的报酬的情况下,给出了股票在不同状态之间发生转移的总期望报酬模型·通过对总期望报酬模型进行变换得到了策略改进算法·同时得到了转移系数矩阵一般表达式,给出了针对具体股票状态转移时间间隔的指数分布并对其进行了估计· 展开更多
关键词 证券投资策略 连续时间马尔可夫过程 转移系数矩阵 报酬 决策
下载PDF
基于离散Markov决策过程的发电公司多阶段决策 被引量:2
3
作者 张宏刚 宋依群 《上海交通大学学报》 EI CAS CSCD 北大核心 2004年第8期1238-1240,1245,共4页
采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换... 采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换概率,分别给出了发电公司作为价格接受者和价格制定者时的多阶段决策模型.通过算例验证了所提模型的有效性和可行性. 展开更多
关键词 电力市场 离散时间Markov决策过程 决策问题
下载PDF
基于马尔可夫过程的快速SIL验证方法研究 被引量:1
4
作者 付进 张渺 +1 位作者 崔铭芳 杜炘洁 《自动化仪表》 CAS 2021年第9期33-38,44,共7页
随着行业技术的发展,天然气处理厂规模的逐步扩大,工艺流程设计、实施、操作过程中,极小的失误可能导致严重的后果。国家近年出台了多项标准及指导意见,要求“两重点一重大”新项目和在役项目开展安全仪表系统的评估整改工作。其中的一... 随着行业技术的发展,天然气处理厂规模的逐步扩大,工艺流程设计、实施、操作过程中,极小的失误可能导致严重的后果。国家近年出台了多项标准及指导意见,要求“两重点一重大”新项目和在役项目开展安全仪表系统的评估整改工作。其中的一个重要环节就是安全完整性等级(SIL)评定。目前,常用的方法存在风险识别不全、运算耗时较长、模型复杂等问题。为此,基于马尔科夫过程理论,对常规方法计算过程中的高阶矩阵幂运算进行优化。该方法在理论上保证了不损失计算精度,计算效率最大可提高160多倍,解决了目前SIL验证方法运算效率和准确度难以兼顾的问题,显著减少了大型化工厂复杂冗余系统的大批量SIL验证的时间成本。 展开更多
关键词 完整性管理 化工装置 安全仪表系统 安全完整性等级 马尔可夫过程 时间复杂度 失效概率 离散时间 流程工业
下载PDF
基于马尔科夫决策的目标选择策略 被引量:5
5
作者 雷霆 朱承 张维明 《国防科技大学学报》 EI CAS CSCD 北大核心 2014年第2期161-167,共7页
目标选择是军事计划的关键要素之一。基于马尔科夫决策方法,解决具有复杂目标间关联的多阶段目标选择问题。使用与或树描述目标体系各层状态间的影响关联,并以目标体系整体失效为求解目的,建立了基于离散时间MDP的多阶段打击目标选择模... 目标选择是军事计划的关键要素之一。基于马尔科夫决策方法,解决具有复杂目标间关联的多阶段目标选择问题。使用与或树描述目标体系各层状态间的影响关联,并以目标体系整体失效为求解目的,建立了基于离散时间MDP的多阶段打击目标选择模型。在LRTDP算法基础上提出一种启发式方法,通过判断从当前目标体系状态到达体系失效状态的演化过程中的可能资源消耗和失败概率,来提供对当前状态的评估值,该方法能有效排除问题搜索空间中不能到达体系失效目的的中间状态,压缩了由于目标间复杂关联而增长的巨大状态空间。用实验验证了该方法有效性,实验结果表明,该方法直观实用,对目标间具有复杂关联关系的目标打击决策有一定参考价值。 展开更多
关键词 目标选择 目标体系 与或树 离散时间马尔科夫决策过程
下载PDF
离散时间多服务台排队系统 被引量:2
6
作者 禹海波 聂赞坎 《郑州大学学报(自然科学版)》 CAS 2001年第3期28-32,共5页
研究了离散时间多服务台排队系统 ,假定顾客到达过程为离散马尔可夫到达过程 ,系统中有 c个不相同的服务台 ,每个服务台对顾客的服务时间均服从离散位相型 ( PH)分布 .运用矩阵几何解理论 ,得到了系统的稳态队长分布 ,同时也给出了到达... 研究了离散时间多服务台排队系统 ,假定顾客到达过程为离散马尔可夫到达过程 ,系统中有 c个不相同的服务台 ,每个服务台对顾客的服务时间均服从离散位相型 ( PH)分布 .运用矩阵几何解理论 ,得到了系统的稳态队长分布 ,同时也给出了到达顾客所见队长和平均等待时间 . 展开更多
关键词 离散时间排队 多服务台排队 马尔可夫到达过程 位相型分布 矩阵几何解理论 稳态队长分布
下载PDF
风险概率准则下的非平稳马氏决策过程
7
作者 温馨 徐小雅 郭先平 《应用概率统计》 CSCD 北大核心 2023年第4期589-603,共15页
本文研究一类非平稳离散马氏决策过程的风险概率最小化问题,其中转移概率和奖励函数随时间变化.与现有文献中的期望报酬/成本准则不同,本文考虑最小化系统在首次到达某个目标集之前获得的总报酬未能达到给定利润目标的概率.在合理的假... 本文研究一类非平稳离散马氏决策过程的风险概率最小化问题,其中转移概率和奖励函数随时间变化.与现有文献中的期望报酬/成本准则不同,本文考虑最小化系统在首次到达某个目标集之前获得的总报酬未能达到给定利润目标的概率.在合理的假设条件下,我们建立了相应的最优方程序列,验证了最优风险函数序列是最优方程序列的唯一解,并证明了最优马氏策略的存在性. 展开更多
关键词 非平稳离散马氏决策过程 风险概率准则 最优方程序列 首达时间 最优马氏策略
下载PDF
连续时间马尔可夫决策过程的折扣模型
8
作者 郭先平 戴永隆 《数学学报(中文版)》 SCIE CSCD 北大核心 2002年第1期171-182,共12页
本文考虑的是转移速率族任意且费用率函数可能无界的连续时间马尔可夫决策过程的折扣模型.放弃了传统的要求相应于每个策略的 Q -过程唯一等条件,而首次考虑相应每个策略的 Q -过程不一定唯一, 转移速率族也不一定保守, ... 本文考虑的是转移速率族任意且费用率函数可能无界的连续时间马尔可夫决策过程的折扣模型.放弃了传统的要求相应于每个策略的 Q -过程唯一等条件,而首次考虑相应每个策略的 Q -过程不一定唯一, 转移速率族也不一定保守, 费用率函数可能无界, 且允许行动空间非空任意的情形. 本文首次用"α-折扣费用最优不等式"更新了传统的α-折扣费用最优方程,并用"最优不等式"和新的方法,不仅证明了传统的主要结果即最优平稳策略的存在性, 而且还进一步探讨了( ∈>0  )-最优平稳策略,具有单调性质的最优平稳策略, 以及(∈≥0) -最优决策过程的存在性, 得到了一些有意义的新结果. 最后, 提供了一个迁移率受控的生灭系统例子, 它满足本文的所有条件, 而传统的假设(见文献[1-14])均不成立. 展开更多
关键词 Q-过程 无界费用 单调最优策略 连续时间马尔可夫决策过程 折扣模型
原文传递
基于马尔可夫决策过程的六足机器人自由步态规划 被引量:9
9
作者 李满宏 张建华 +1 位作者 张小俊 张明路 《机器人》 EI CSCD 北大核心 2015年第5期529-537,共9页
为精细模仿生物步态,充分发挥六足机器人运动潜能,本文在离散化机器人足端轨迹的基础上,融合中枢模式发生器(CPG)模型与反射模型,建立了离散化步态模型,基于稳定性分析,构建了机器人稳定的位置状态空间,将复杂的步态规划问题等效转化为... 为精细模仿生物步态,充分发挥六足机器人运动潜能,本文在离散化机器人足端轨迹的基础上,融合中枢模式发生器(CPG)模型与反射模型,建立了离散化步态模型,基于稳定性分析,构建了机器人稳定的位置状态空间,将复杂的步态规划问题等效转化为稳定的位置状态空间中位置状态间的排序问题,在此基础上,提出了一种自由步态生成算法;并基于处理顺序决策问题的马尔可夫决策过程,以平均稳定裕量为优化指标,针对特定地形研究自由步态的优化算法.样机步态实验结果表明,自由步态生成算法与优化算法均可生成在一定程度上符合生物运动特点的稳定步态,且自由步态优化算法可针对特定地形快速规划出基于平均稳定裕量的最优步态. 展开更多
关键词 六足机器人 自由步态 步态规划 马尔可夫决策过程 离散
原文传递
火控相控阵雷达的时间资源管理算法 被引量:8
10
作者 秦童 戴奉周 +1 位作者 刘宏伟 方明 《系统工程与电子技术》 EI CSCD 北大核心 2016年第3期545-550,共6页
对于火控相控阵雷达,可以灵活地调整波束的指向方向,从而调整雷达用于跟踪的时间资源。针对这样的特性,提出了一种雷达用于跟踪的时间资源的管理算法,以提升雷达最大可跟踪目标的数量。该文以概率密度函数来描述雷达对目标的跟踪误差,... 对于火控相控阵雷达,可以灵活地调整波束的指向方向,从而调整雷达用于跟踪的时间资源。针对这样的特性,提出了一种雷达用于跟踪的时间资源的管理算法,以提升雷达最大可跟踪目标的数量。该文以概率密度函数来描述雷达对目标的跟踪误差,综合考虑了测距与测速精度对跟踪误差产生影响。而后,采用马尔可夫决策的方法,对雷达照射目标的驻留时间与重访时间间隔进行求解。仿真结果表明,对于雷达场景中的目标数量较大情况下,相对于传统的雷达时间资源管理方法,该文提出的方法在保证跟踪精度符合要求的前提下,能够有效提高雷达最大可跟踪目标的数量。 展开更多
关键词 火控相控阵雷达 时间资源管理 马尔可夫决策过程
下载PDF
企业知识系统柔性战略的决策模型 被引量:14
11
作者 张新武 刘仲英 《管理科学学报》 CSSCI 2002年第6期65-70,共6页
通过形式化的模型,利用马尔可夫链过程描述企业知识状态的转移,通过对不同知识战略变化的净现值比较,得出知识战略的优劣.从柔性的时间维度与范围维度研究企业在3类不同知识状态下,所采用的知识状态变化的战略决策.
关键词 柔性战略 企业知识系统 决策模型 马尔可夫过程 时间维度 范围维度 净现值
下载PDF
基于深度强化学习的新能源配电网双时间尺度无功电压优化 被引量:8
12
作者 李鹏 姜磊 +2 位作者 王加浩 夏辉 潘有朋 《中国电机工程学报》 EI CSCD 北大核心 2023年第16期6255-6265,共11页
新能源大量接入配电网,其波动性及间歇性容易导致配电网电压的频繁波动问题。传统基于模型的无功电压优化方法高度依托于电网的精准建模,其求解精度与计算速度难以满足含新能源配电网对于电压控制的要求。该文基于深度强化学习,提出一... 新能源大量接入配电网,其波动性及间歇性容易导致配电网电压的频繁波动问题。传统基于模型的无功电压优化方法高度依托于电网的精准建模,其求解精度与计算速度难以满足含新能源配电网对于电压控制的要求。该文基于深度强化学习,提出一种双时间尺度配电网无功电压优化方法。该方法将电力系统无功电压优化问题转化为马尔可夫决策过程,统筹考虑无功补偿设备的差异化调节特性和不同深度强化学习算法的特点,设计针对离散型设备和连续型设备协调控制的双时间尺度优化方案。其中,长时间尺度上制定并联电容器组投切计划,以调整电压偏移,同时最小化全系统网损;短时间尺度上设置滚动预测窗,制定SVG出力计划,以跟踪电压变化,解决新能源并网带来的配电网电压频繁波动问题。最后通过IEEE33节点拓展系统验证该数据驱动方案在无功电压优化的实现速度和效果上所具有的优势。 展开更多
关键词 新能源配电网 深度强化学习 时间尺度 无功电压优化 马尔可夫决策过程
下载PDF
基于概率时间自动机的模型检测反例表示研究
13
作者 王晶 张广泉 《苏州大学学报(自然科学版)》 CAS 2011年第2期36-42,47,共8页
近年来,概率系统在实际中应用越来越广泛,其中模型检测基于概率系统的反例生成问题,已引起人们的广泛关注,现有的工作主要围绕模型检测Markov链反例生成展开.概率时间自动机(PTA)是Markov链的不确定性和系统时钟的扩展,针对模型检测PTA... 近年来,概率系统在实际中应用越来越广泛,其中模型检测基于概率系统的反例生成问题,已引起人们的广泛关注,现有的工作主要围绕模型检测Markov链反例生成展开.概率时间自动机(PTA)是Markov链的不确定性和系统时钟的扩展,针对模型检测PTA的反例表示问题,首先将PTA的语义表示为Markov决策过程(MDP),通过策略解决MDP不确定性,将MDP转换为离散时间Markov链(DTMC);然后将DTMC转换为带权有向图,则PTA中最小反例问题转化为带权有向图中最短路径问题;最后采用正则表达式表示求得的反例. 展开更多
关键词 反例 概率时间自动机 离散时间Markov链 MARKOV决策过程
下载PDF
配电系统双时间尺度电压管理的深度强化学习方法 被引量:5
14
作者 冯昌森 张瑜 +3 位作者 谢路耀 文福拴 张凯怡 张有兵 《电力系统自动化》 EI CSCD 北大核心 2022年第12期202-209,共8页
随着可再生能源发电渗透率的不断增大,配电系统的电压越限问题愈发频繁,亟需高效的电压管理策略以保证配电系统的安全经济运行。首先,文中建立了双时间尺度的配电系统电压管理模型,实现不同时间响应特性的调压设备协调控制。然后,将2个... 随着可再生能源发电渗透率的不断增大,配电系统的电压越限问题愈发频繁,亟需高效的电压管理策略以保证配电系统的安全经济运行。首先,文中建立了双时间尺度的配电系统电压管理模型,实现不同时间响应特性的调压设备协调控制。然后,将2个时间尺度的电压管理模型建模为马尔可夫决策过程,在有效考虑两者的时间耦合关系和可控设备物理特性的基础上,分别利用多智能体深度确定性策略梯度算法和双深度Q网络算法求解模型,实现了双时间尺度的实时电压管理。最后,基于IEEE 33节点配电系统进行算例分析,验证了所提模型和方法的有效性。 展开更多
关键词 配电系统 电压管理 可再生能源发电 时间尺度 马尔可夫决策过程 深度强化学习
下载PDF
基于强化学习方法的航班滑出时间预测研究 被引量:2
15
作者 杜婧涵 胡明华 +1 位作者 尹嘉男 张魏宁 《航空计算技术》 2022年第6期26-29,34,共5页
航班的滑出时间是描述机场场面运行状态和周转效率的关键指标,其不确定性会降低航班到达目的机场的可预见性,进而带来航空资源的低效利用和燃油耗费问题。研究了一种基于强化学习的航班滑出时间预测模型。从交通状态和时序特性方面分析... 航班的滑出时间是描述机场场面运行状态和周转效率的关键指标,其不确定性会降低航班到达目的机场的可预见性,进而带来航空资源的低效利用和燃油耗费问题。研究了一种基于强化学习的航班滑出时间预测模型。从交通状态和时序特性方面分析并提取影响滑出时间的主要特征集;利用马尔科夫决策过程建模滑出时间预测问题,并通过强化学习算法进行模型训练和测试。在真实机场场面运行数据中进行的实验表明,所提出方法不仅能够准确预测单个航班的滑出时间,还能够捕捉机场场面整体的滑行态势的变化情况,为智慧机场的建设提供新思路。 展开更多
关键词 机场场面 智慧机场 航班滑出时间 强化学习 马尔可夫决策过程
下载PDF
考虑不确定因素的多模式城市交通网络路径决策 被引量:4
16
作者 李浩楠 曹成铉 +1 位作者 柳雨彤 冯紫嫣 《科学技术与工程》 北大核心 2019年第12期319-324,共6页
由于时间的波动性与突发事件的影响,多模式城市交通网络的运行时常伴随着各种不确定性情况的发生。通过考虑多模式交通网络的出行特点与交通网络不同的运行状态,建立了基于马尔可夫决策过程的多模式交通网络的路线决策模型与算法,所提... 由于时间的波动性与突发事件的影响,多模式城市交通网络的运行时常伴随着各种不确定性情况的发生。通过考虑多模式交通网络的出行特点与交通网络不同的运行状态,建立了基于马尔可夫决策过程的多模式交通网络的路线决策模型与算法,所提方法应用到北京市多模式城市交通网络。结果显示,不同出发时间需要不同的路径决策以达到最小出行时间。基于马尔可夫决策过程的路径决策方法的有效性得到验证,它可以为出行者路线选择提供更合理的指示。 展开更多
关键词 多模式交通网络 路线决策 马尔可夫决策过程 出行时间
下载PDF
基于随机恢复时间的骨盆骨折创伤患者手术分配优化
17
作者 李清 苏强 邓国英 《运筹与管理》 CSSCI CSCD 北大核心 2023年第8期51-56,共6页
骨盆骨折是一种高能量创伤且通常伴有多发伤,手术是主要的治疗方法,本文制定并优化创伤患者的手术分配计划。首先根据患者入院时的生命稳定状态,将手术患者分为恢复期和计划期两类;针对两类患者的不同特点,为恢复期患者设置随机恢复时间... 骨盆骨折是一种高能量创伤且通常伴有多发伤,手术是主要的治疗方法,本文制定并优化创伤患者的手术分配计划。首先根据患者入院时的生命稳定状态,将手术患者分为恢复期和计划期两类;针对两类患者的不同特点,为恢复期患者设置随机恢复时间,以最大期望收益为目标建立马尔可夫决策过程模型;根据医院实际情况设计实验,采用后向迭代算法求解得到最优分配策略;改变惩罚函数形式和恢复期患者数量,制定不同场景的分配策略,提高医疗资源利用率。采用二次惩罚函数时,最优分配曲线呈现开关曲线形式;恢复期患者数量越多,其享有的优先权越高。 展开更多
关键词 骨盆骨折 马尔可夫决策过程 随机恢复时间
下载PDF
Polish空间上的折扣马氏过程量子化策略的渐近优化
18
作者 吴晓 孔荫莹 郭圳滨 《数学物理学报(A辑)》 CSCD 北大核心 2022年第2期594-604,共11页
该文研究了Polish空间上、带折扣因子的连续时间马尔可夫决策过程(CTMDPs)的量子化平稳策略的渐近最优性问题.首先,建立了折扣最优方程(DOE)及其解的存在性和唯一性.其次,在适当的条件下证明了最优确定性平稳策略的存在性.此外,为了对... 该文研究了Polish空间上、带折扣因子的连续时间马尔可夫决策过程(CTMDPs)的量子化平稳策略的渐近最优性问题.首先,建立了折扣最优方程(DOE)及其解的存在性和唯一性.其次,在适当的条件下证明了最优确定性平稳策略的存在性.此外,为了对行动空间进行离散化,构造了一列量子化策略,利用有限行动空间的策略来逼近一般(Polish)空间上的折扣CTMDPs最优平稳策略.最后,通过一个例子来说明该文的渐近逼近结果. 展开更多
关键词 连续时间马尔可夫决策过程 依赖状态折扣因子 折扣准则 量子化平稳策略 渐近最优性
下载PDF
关于马尔柯夫链在教学评价与教育预测中的应用商榷
19
作者 戴则林 《教育研究与实验》 CSSCI 北大核心 1992年第1期30-30,共1页
早在70年代,我国就有专家运用马尔柯夫方法来研究一个学校、一个年级或一个班,或者某一学生个体。马尔可夫方法用来探讨系统在某一时刻的状况,它表示系统在某一时刻的最小一组变量。当确定了一组变量的值时,也就确定了系统处于某一时刻... 早在70年代,我国就有专家运用马尔柯夫方法来研究一个学校、一个年级或一个班,或者某一学生个体。马尔可夫方法用来探讨系统在某一时刻的状况,它表示系统在某一时刻的最小一组变量。当确定了一组变量的值时,也就确定了系统处于某一时刻的行为。系统的状态常用状态概率向量表示,它仅与事物的近期状态有关,而与事物的过去状态无关。所研究的时间是无限的连续变量。如时间参数取离散变量(如日、月、年),其状态也是有限的,这样把时间和状态作为离散的马尔柯夫过程,便形成了具有无后效性的马尔柯夫链。 展开更多
关键词 马尔柯夫链 马尔可夫方法 马尔柯夫过程 离散变量 状态概率 连续变量 转移概率矩阵 近期状态 时间参数 无后效性
下载PDF
互联电网CPS调节指令动态最优分配Q–学习算法 被引量:25
20
作者 余涛 王宇名 刘前进 《中国电机工程学报》 EI CSCD 北大核心 2010年第7期62-69,共8页
控制性能标准(control performance standard,CPS)下互联电网调度端的自动发电控制(automatic generation control,AGC)指令(简称CPS指令)到各类型AGC机组的动态优化分配是随机最优问题。将CPS指令分配的连续控制过程离散化,并可将其看... 控制性能标准(control performance standard,CPS)下互联电网调度端的自动发电控制(automatic generation control,AGC)指令(简称CPS指令)到各类型AGC机组的动态优化分配是随机最优问题。将CPS指令分配的连续控制过程离散化,并可将其看作是一个离散时间马尔可夫决策过程,提出应用基于Q–学习的动态控制方法。根据优化目标的差异,设计不同的奖励函数,并将其引入到算法当中,有效结合水、火电机组的调节特性,并考虑水电机组的调节裕度,提高AGC系统调节能力。遗传算法和工程实用方法在标准两区域模型及南方电网模型的仿真研究显示,Q–学习有效提高了系统的适应性、鲁棒性和CPS考核合格率。 展开更多
关键词 Q-学习 随机最优 离散时间马尔可夫决策过程 控制性能标准 自动发电控制
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部