期刊文献+
共找到132篇文章
< 1 2 7 >
每页显示 20 50 100
连续时间Markov决策过程在呼叫接入控制中的应用 被引量:3
1
作者 周亚平 奚宏生 +1 位作者 殷保群 唐昊 《控制与决策》 EI CSCD 北大核心 2001年第B11期795-799,共5页
应用 Markov决策过程与性能势相结合的方法 ,给出了呼叫接入控制的策略优化算法。所得到的最优策略是状态相关的策略 ,与基于节点已占用带宽决定行动的策略相比 ,状态相关策略具有更好的性能值 。
关键词 呼叫接入控制 markov决策过程 策略优化 性能势 排队网络
下载PDF
半Markov决策过程折扣模型与平均模型之间的关系 被引量:1
2
作者 殷保群 李衍杰 +2 位作者 唐昊 代桂平 奚宏生 《控制理论与应用》 EI CAS CSCD 北大核心 2006年第1期65-68,共4页
首先分别在折扣代价与平均代价性能准则下,讨论了一类半M arkov决策问题.基于性能势方法,导出了由最优平稳策略所满足的最优性方程.然后讨论了两种模型之间的关系,表明了平均模型的有关结论,可以通过对折扣模型相应结论取折扣因子趋于... 首先分别在折扣代价与平均代价性能准则下,讨论了一类半M arkov决策问题.基于性能势方法,导出了由最优平稳策略所满足的最优性方程.然后讨论了两种模型之间的关系,表明了平均模型的有关结论,可以通过对折扣模型相应结论取折扣因子趋于零时的极限来得到. 展开更多
关键词 markov决策过程 折扣模型 平均模型 最优性方程 最优平稳策略
下载PDF
半Markov决策过程的数值迭代优化 被引量:2
3
作者 唐昊 吴玉华 周雷 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2006年第1期108-112,共5页
针对半Markov决策过程在紧致行动集上的数值迭代优化,提出了折扣和平均准则下直接基于等价无穷小生成子的统一的标准数值迭代算法,并证明了其收敛性。另外,讨论了两种性能准则下统一的异步数值迭代算法,包括Gauss-Seidel异步迭代和随机... 针对半Markov决策过程在紧致行动集上的数值迭代优化,提出了折扣和平均准则下直接基于等价无穷小生成子的统一的标准数值迭代算法,并证明了其收敛性。另外,讨论了两种性能准则下统一的异步数值迭代算法,包括Gauss-Seidel异步迭代和随机异步迭代,特别是基于样本轨道仿真的数值迭代等,并运用性能势思想对上述算法进行改进。结果表明,该算法可直接适用于连续时间Markov决策过程。最后通过一个数值例子来比较各种算法的特点。 展开更多
关键词 计算机应用 markov决策过程 等价无穷小生成子 异步数值迭代
下载PDF
基于Markov决策过程的驾驶员行为模型 被引量:3
4
作者 许骏 李一兵 《汽车工程》 EI CSCD 北大核心 2008年第1期14-16,60,共4页
将驾驶员-汽车看作统一的人机系统,利用驾驶员驾驶过程的本质是决策过程的性质,通过确定系统的决策时刻、决策报酬、状态转移速率和概率、抽象驾驶员的行为集合等建立了基于Markov决策过程的驾驶员行为模型,最后对所建模型进行了计算机... 将驾驶员-汽车看作统一的人机系统,利用驾驶员驾驶过程的本质是决策过程的性质,通过确定系统的决策时刻、决策报酬、状态转移速率和概率、抽象驾驶员的行为集合等建立了基于Markov决策过程的驾驶员行为模型,最后对所建模型进行了计算机仿真。 展开更多
关键词 驾驶员行为 markov决策过程 模型 人机系统
下载PDF
一种有限时段Markov决策过程的强化学习算法 被引量:4
5
作者 李春贵 刘永信 《广西工学院学报》 CAS 2003年第1期1-4,共4页
研究有限时段非平稳的 Markov决策过程的强化学习算法。通过引入一个人工吸收状态 ,把有限时段问题变为无限时段问题 ,从而可利用通常的强化学习方法来求解。在文献 [3]提出的算法思想基础上 ,提出了一种新的有限时段非平稳的 Markov决... 研究有限时段非平稳的 Markov决策过程的强化学习算法。通过引入一个人工吸收状态 ,把有限时段问题变为无限时段问题 ,从而可利用通常的强化学习方法来求解。在文献 [3]提出的算法思想基础上 ,提出了一种新的有限时段非平稳的 Markov决策过程的强化学习算法 。 展开更多
关键词 强化学习 有限时段 markov决策过程 无完全模型 库存控制 机器学习 非平稳
下载PDF
隐Markov决策模型 被引量:1
6
作者 赵联文 吴晓雄 郭耀煌 《西南交通大学学报》 EI CSCD 北大核心 2002年第4期467-469,共3页
讨论Markov决策问题中样本与不可观测状态之间的关系问题。引进了避错特征函数的概念 ,利用隐Markov过程的结构和Markov决策模型建立了隐Markov决策模型。并进一步讨论了状态估计和阶段收益函数。
关键词 markov决策模型 随机过程 决策 markov过程 避错特征函数 状态估计
下载PDF
基于离散Markov决策过程的发电公司多阶段决策 被引量:2
7
作者 张宏刚 宋依群 《上海交通大学学报》 EI CAS CSCD 北大核心 2004年第8期1238-1240,1245,共4页
采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换... 采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换概率,分别给出了发电公司作为价格接受者和价格制定者时的多阶段决策模型.通过算例验证了所提模型的有效性和可行性. 展开更多
关键词 电力市场 离散时间markov决策过程 决策问题
下载PDF
非时齐部分可观察Markov决策规划的最优策略问题 被引量:1
8
作者 张继红 郭世贞 章芸 《运筹学学报》 CSCD 北大核心 2004年第2期81-87,共7页
本文讨论了一类非时齐部分可观察Markov决策模型.在不改变状态空间可列 性的条件下,把该模型转化为[5]中的一般化折扣模型,从而解决了其最优策略问题,并 且得到了该模型的有限阶段逼近算法,其中该算法涉及的状态是可列的.
关键词 部分可观察markov决策规划 最优策略 非时齐 折扣模型 逼近
下载PDF
基于Markov决策过程的列控系统定量安全分析方法 被引量:1
9
作者 周果 赵会兵 《铁道学报》 EI CAS CSCD 北大核心 2016年第2期74-81,共8页
为了在列控系统的设计阶段和安全评估阶段对系统隐患进行把握,对系统的设计进行定量安全分析是至关重要的。定量分析的结果可以用来判断和比较设计的优劣,也可用来评估隐患的风险,并根据分析结果判断所采取的隐患控制措施是否使隐患的... 为了在列控系统的设计阶段和安全评估阶段对系统隐患进行把握,对系统的设计进行定量安全分析是至关重要的。定量分析的结果可以用来判断和比较设计的优劣,也可用来评估隐患的风险,并根据分析结果判断所采取的隐患控制措施是否使隐患的风险被控制在可接受的范围内。本文应用以Markov决策过程为基础的建模方法,对列控系统中的双车追踪场景进行系统行为建模,集成系统正常行为和失效行为,提出综合系统行为模型CBM,并通过概率模型检验工具PRISM对危险失效概率进行准确计算,提出列控系统定量安全分析方法。 展开更多
关键词 列控系统 定量安全分析 markov决策过程 概率模型检验
下载PDF
Markov决策过程在船舶结构维修中的应用 被引量:2
10
作者 江晓俐 《中国造船》 EI CSCD 北大核心 2005年第3期85-91,共7页
船舶腐蚀和疲劳是导致船体老化,进而使其逐渐丧失结构承载能力的重要原因。本文采用具有无后效性的Markov链来模拟船体结构老化过程,其状态空间由完好(不需要维修)、可见裂纹维修、油漆和阴极防护维修、腐蚀修理、疲劳裂纹修理、腐蚀疲... 船舶腐蚀和疲劳是导致船体老化,进而使其逐渐丧失结构承载能力的重要原因。本文采用具有无后效性的Markov链来模拟船体结构老化过程,其状态空间由完好(不需要维修)、可见裂纹维修、油漆和阴极防护维修、腐蚀修理、疲劳裂纹修理、腐蚀疲劳组合修理和完全失效共计七种状态组成。每一状态均可采取无修理、修理和更新三者之一的维修方案。通过迭代来获得最佳维修方案以实现单位时间成本最低的维修优化目标。算例表明,Markov链可以合理地模拟船舶结构的老化过程,并可方便快捷地运用于船舶维修经济论证。 展开更多
关键词 船舶 舰船工程 船舶维修 markov决策过程(MDP) 优化 单位时间成本 经济论证
下载PDF
可数半Markov决策过程折扣代价性能优化
11
作者 殷保群 李衍杰 +1 位作者 周亚平 奚宏生 《控制与决策》 EI CSCD 北大核心 2006年第8期933-936,共4页
讨论一类可数半M arkov决策过程(CSM DP)在折扣代价准则下的性能优化问题.运用等价M arkov过程方法,定义了折扣Po isson方程,并由该方程定义了α-势.基于α-势,导出了由最优平稳策略所满足的最优性方程.较为详细地讨论了最优性方程解的... 讨论一类可数半M arkov决策过程(CSM DP)在折扣代价准则下的性能优化问题.运用等价M arkov过程方法,定义了折扣Po isson方程,并由该方程定义了α-势.基于α-势,导出了由最优平稳策略所满足的最优性方程.较为详细地讨论了最优性方程解的存在性问题,并给出了其解存在的一些充分条件. 展开更多
关键词 可数半markov决策过程 折扣性能准则 折扣Poisson方程 α-势 最优性方程
下载PDF
Markov决策过程的蚁群规划算法
12
作者 柴啸龙 胡桂武 陈蔼祥 《计算机工程与应用》 CSCD 北大核心 2010年第20期40-41,45,共3页
在智能规划问题上,寻找规划解都是NP甚至NP完全问题,如果动作的执行效果带有不确定性,如在Markov决策过程的规划问题中,规划的求解将会更加困难,现有的Markov决策过程的规划算法往往用一个整体状态节点来描述某个动作的实际执行效果,试... 在智能规划问题上,寻找规划解都是NP甚至NP完全问题,如果动作的执行效果带有不确定性,如在Markov决策过程的规划问题中,规划的求解将会更加困难,现有的Markov决策过程的规划算法往往用一个整体状态节点来描述某个动作的实际执行效果,试图回避状态内部的复杂性,而现实中的大量动作往往都会产生多个命题效果,对应多个命题节点。为了能够处理和解决这个问题,提出了映像动作,映像路节和映像规划图等概念,并在其基础上提出了Markov决策过程的蚁群规划算法,从而解决了这一问题。并且证明了算法得到的解,即使在不确定的执行环境下,也具有不低于一定概率的可靠性。 展开更多
关键词 智能规划 规划图 markov决策过程 不确定规划 群体智能算法
下载PDF
基于Markov决策过程的离散过程风险度量
13
作者 安实 孙健 王岩 《中国管理科学》 CSSCI 2006年第z1期339-342,共4页
针对静态风险度量方法无法实现多阶段投资风险度量需要的缺陷,根据动态风险度量过程的特点,提出时间持续性概念以及推论,通过简单算例证明目前静态风险度量方法VaR、CVaR和ES由于不满足时间持续性而无法实现多阶段风险度量的不合理现状... 针对静态风险度量方法无法实现多阶段投资风险度量需要的缺陷,根据动态风险度量过程的特点,提出时间持续性概念以及推论,通过简单算例证明目前静态风险度量方法VaR、CVaR和ES由于不满足时间持续性而无法实现多阶段风险度量的不合理现状,建立基于离散时间状态和Markov决策过程的多阶段风险度量. 展开更多
关键词 离散过程风险度量 动态风险度量 markov决策过程
下载PDF
Markov决策过程在矿井通讯系统中的应用
14
作者 沈晋会 《煤炭技术》 CAS 北大核心 2013年第11期218-219,共2页
随着网络技术的快速发展,信息化系统的处理能力越来越强。在矿井通讯系统中应用Markov决策过程逐渐向自动化管理方向扩展,并得到更广泛的应用,在煤矿通讯管理中实现信息化管理对于我国现代化建设有着非常重大的意义。文章在分析Markov... 随着网络技术的快速发展,信息化系统的处理能力越来越强。在矿井通讯系统中应用Markov决策过程逐渐向自动化管理方向扩展,并得到更广泛的应用,在煤矿通讯管理中实现信息化管理对于我国现代化建设有着非常重大的意义。文章在分析Markov决策过程的优缺点基础上,提出在煤矿通讯系统中应用可靠传输技术,设计煤矿管理系统Markov决策模型,并在该机制中引入传输层信息的反馈,以达到煤矿通讯系统信息化应用的最优化。 展开更多
关键词 markov决策过程 矿井 通讯系统
下载PDF
基于Markov决策过程的输变电设备最佳检修决策 被引量:18
15
作者 贾京苇 侯慧娟 +3 位作者 杜修明 段大鹏 盛戈皞 江秀臣 《高电压技术》 EI CAS CSCD 北大核心 2017年第7期2323-2330,共8页
为解决现有输变电设备检修决策很大程度依赖于决策人员经验的问题,应用Markov决策过程为检修决策提供定量、具体的决策依据。首先通过Markov过程求解设备的状态转移概率;然后运用策略迭代法对模型最优决策进行求解;最后将数据代入检修... 为解决现有输变电设备检修决策很大程度依赖于决策人员经验的问题,应用Markov决策过程为检修决策提供定量、具体的决策依据。首先通过Markov过程求解设备的状态转移概率;然后运用策略迭代法对模型最优决策进行求解;最后将数据代入检修决策模型中,改变故障损失得到决策结果的变化。比较决策变化对应的设备故障损失和设备稳态概率可得知:所建立的基于状态的检修(CBM)模型适用于安装了在线监测装置的设备,而基于检测的检修(IBM)模型适用于无在线监测装置的设备;最优决策从维修成本最小的决策过渡到最后每次决策时都选择大修,整个变化过程证明了应用Markov决策可以折中维修成本和故障损失得到经济最优决策。研究结果可为检修决策人员提供定量的检修计划。 展开更多
关键词 输变电设备 检修决策 检修模型 markov过程 markov决策过程 策略迭代法
下载PDF
具有平均费用的非平稳Markov决策过程
16
作者 魏力仁 《经济数学》 1995年第1期55-63,共9页
本文研究了在一般状态空间具有平均费用的非平稳Markov决策过程,把在平稳情形用补充的折扣模型的最优方程来建立平均费用的最优方程的结果,推广到非平稳的情形.利用这个结果证明了最优策略的存在性.
关键词 markov决策过程 平均费用准则 最优策略
下载PDF
连续时间部分可观Markov决策过程的策略梯度估计 被引量:1
17
作者 唐波 李衍杰 殷保群 《控制理论与应用》 EI CAS CSCD 北大核心 2009年第7期805-808,共4页
针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数... 针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用. 展开更多
关键词 连续时间部分可观markov决策过程 策略梯度估计 一致化 误差界
下载PDF
有限规划水平自适应Markov决策过程的参数决策 被引量:1
18
作者 李江洪 韩正之 《应用科学学报》 CAS CSCD 2000年第4期335-339,共5页
针对现有Markov决策过程自适应决策方法仅研究无限规划水平自适应决策的不足,提出了一种有限规划水平Markov决策过程自适应决策算法.算法的基本思想是运用Bayes理论对未知系统进行“学习”,并且在每次决策时以最大... 针对现有Markov决策过程自适应决策方法仅研究无限规划水平自适应决策的不足,提出了一种有限规划水平Markov决策过程自适应决策算法.算法的基本思想是运用Bayes理论对未知系统进行“学习”,并且在每次决策时以最大概率保证实际决策为最优决策.最后用仿真结果表明了算法的有效性. 展开更多
关键词 markov决策过程 自适应决策 BAYes原理 有限规划 参数决策
下载PDF
基于约束Markov决策过程的初至自动识别技术 被引量:3
19
作者 罗飞 王华忠 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2021年第6期2050-2060,共11页
随着地震数据采集技术的进步,地震数据量日益增加,全自动、高精度的地震初至走时拾取技术受到了更加广泛的关注.本文将初至拾取看作特征空间内带约束的Markov决策过程,在奖励函数空间,按一定准则全局寻优获得积累奖励值最大的路径,从而... 随着地震数据采集技术的进步,地震数据量日益增加,全自动、高精度的地震初至走时拾取技术受到了更加广泛的关注.本文将初至拾取看作特征空间内带约束的Markov决策过程,在奖励函数空间,按一定准则全局寻优获得积累奖励值最大的路径,从而达到在高维空间自动拾取初至信息的目的.同时,状态值函数中包含与距离相关的折扣因子γ,使Markov决策过程拾取初至能够考虑地震数据的横向连续性,并且回避地震数据中的坏道信息.在此基础上,本文方法进一步引入受空间几何信息约束的动作(Actions)和转移概率(Transitions Probability),从而降低了对起始状态和折扣因子选取的难度,让地震数据初至走时拾取更加准确和自动化.实际数据测试结果表明,在初至能量较弱(信噪比较低)情况或浅层存在相邻较近复杂波形时,本文提出的约束Markov算法仍能准确地进行初至走时的自动拾取,并且具有一定的质量监控能力,让拾取结果更有物理意义. 展开更多
关键词 机器学习 特征属性 空间结构约束 markov决策过程 初至自动拾取
下载PDF
基于Markov决策过程的电池储能一次调频能量管理策略 被引量:3
20
作者 温可瑞 李卫东 +2 位作者 张明泽 王振南 吴港 《电力系统自动化》 EI CSCD 北大核心 2019年第19期77-89,共13页
一次调频市场机制下的电池储能系统能量管理,需要在维持应对频率波动双向调节能力的基础上权衡运行成本和调频收益,以追求电池生命周期内的经济效益最大化。揭示了能量管理序贯决策本质上属于受控Markov过程,据此,通过频率响应需求动态... 一次调频市场机制下的电池储能系统能量管理,需要在维持应对频率波动双向调节能力的基础上权衡运行成本和调频收益,以追求电池生命周期内的经济效益最大化。揭示了能量管理序贯决策本质上属于受控Markov过程,据此,通过频率响应需求动态转移的连续时间Markov链描述,以及基于生命周期吞吐量角度的储能电池容量动态衰退刻画,建立了以电池生命周期内经济效益期望值最大化为目标的Markov决策模型。针对运用标准迭代算法求解上述模型所面临的'维数灾'问题,提出了具有状态空间分解及后继状态辨识特征的降维并行值迭代(DRPVI)算法。算例结果表明:所得动态阈值结构能量管理策略可以显著提升储能经济效益,DRPVI算法能够有效缩减冗余计算,改善求解效率。 展开更多
关键词 一次调频 电池储能系统 能量管理策略 markov决策过程 辅助服务
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部