期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于马尔科夫决策的目标选择策略 被引量:5
1
作者 雷霆 朱承 张维明 《国防科技大学学报》 EI CAS CSCD 北大核心 2014年第2期161-167,共7页
目标选择是军事计划的关键要素之一。基于马尔科夫决策方法,解决具有复杂目标间关联的多阶段目标选择问题。使用与或树描述目标体系各层状态间的影响关联,并以目标体系整体失效为求解目的,建立了基于离散时间MDP的多阶段打击目标选择模... 目标选择是军事计划的关键要素之一。基于马尔科夫决策方法,解决具有复杂目标间关联的多阶段目标选择问题。使用与或树描述目标体系各层状态间的影响关联,并以目标体系整体失效为求解目的,建立了基于离散时间MDP的多阶段打击目标选择模型。在LRTDP算法基础上提出一种启发式方法,通过判断从当前目标体系状态到达体系失效状态的演化过程中的可能资源消耗和失败概率,来提供对当前状态的评估值,该方法能有效排除问题搜索空间中不能到达体系失效目的的中间状态,压缩了由于目标间复杂关联而增长的巨大状态空间。用实验验证了该方法有效性,实验结果表明,该方法直观实用,对目标间具有复杂关联关系的目标打击决策有一定参考价值。 展开更多
关键词 目标选择 目标体系 与或树 离散时间马尔科夫决策过程
下载PDF
基于马尔科夫过程的钢骨混凝土耐久性预测 被引量:2
2
作者 哈娜 王连广 高学涛 《混凝土》 CAS CSCD 北大核心 2009年第9期50-52,共3页
为了保证钢骨混凝土结构在服役期内完成的预定功能,掌握钢骨混凝土结构的退化过程,需要对钢骨混凝土结构进行预测。在总结国内外资料的基础上,运用时间连续状态离散马尔科夫过程的齐次泊松和非齐次泊松理论,给出了相关概念,总结了钢骨... 为了保证钢骨混凝土结构在服役期内完成的预定功能,掌握钢骨混凝土结构的退化过程,需要对钢骨混凝土结构进行预测。在总结国内外资料的基础上,运用时间连续状态离散马尔科夫过程的齐次泊松和非齐次泊松理论,给出了相关概念,总结了钢骨混凝土结构的预测过程,并采用算例实现了钢骨混凝土结构耐久性的预测,得到了等级与时间的关系曲线。研究结果表明:齐次泊松和非齐次泊松的预测结果相近,都是时间随着等级的增加而增加,预测结果也比较准确可靠。 展开更多
关键词 时间连续状态离散马尔科夫过程 钢骨混凝土结构 耐久性 预测
下载PDF
基于离散Markov决策过程的发电公司多阶段决策 被引量:2
3
作者 张宏刚 宋依群 《上海交通大学学报》 EI CAS CSCD 北大核心 2004年第8期1238-1240,1245,共4页
采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换... 采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换概率,分别给出了发电公司作为价格接受者和价格制定者时的多阶段决策模型.通过算例验证了所提模型的有效性和可行性. 展开更多
关键词 电力市场 离散时间Markov决策过程 决策问题
下载PDF
基于时间策略的连续时间Markov过程验证 被引量:1
4
作者 黄镇谨 陈波 欧阳浩 《广西科技大学学报》 CAS 2014年第3期59-62,86,共5页
对系统模型进行验证是保证系统安全的一个关键.连续时间Markov过程可以刻画复杂并发系统的随机、概率、不确定性特征.提出时间依赖策略下连续时间Markov过程验证方法,将连续时间Markov过程转换成为交互式马尔科夫链,给出模型的转换方法... 对系统模型进行验证是保证系统安全的一个关键.连续时间Markov过程可以刻画复杂并发系统的随机、概率、不确定性特征.提出时间依赖策略下连续时间Markov过程验证方法,将连续时间Markov过程转换成为交互式马尔科夫链,给出模型的转换方法及不确定性选择策略的转换方法,最终通过求解交互式马尔科夫链的时间可达概率最值实现对连续时间Markov过程模型的验证.理论分析表明,提出的方法具有可行性. 展开更多
关键词 马尔科夫决策过程 交互式马尔科夫 时间有界可达概率 时间策略
下载PDF
风险概率准则下的非平稳马氏决策过程
5
作者 温馨 徐小雅 郭先平 《应用概率统计》 CSCD 北大核心 2023年第4期589-603,共15页
本文研究一类非平稳离散马氏决策过程的风险概率最小化问题,其中转移概率和奖励函数随时间变化.与现有文献中的期望报酬/成本准则不同,本文考虑最小化系统在首次到达某个目标集之前获得的总报酬未能达到给定利润目标的概率.在合理的假... 本文研究一类非平稳离散马氏决策过程的风险概率最小化问题,其中转移概率和奖励函数随时间变化.与现有文献中的期望报酬/成本准则不同,本文考虑最小化系统在首次到达某个目标集之前获得的总报酬未能达到给定利润目标的概率.在合理的假设条件下,我们建立了相应的最优方程序列,验证了最优风险函数序列是最优方程序列的唯一解,并证明了最优马氏策略的存在性. 展开更多
关键词 非平稳离散马氏决策过程 风险概率准则 最优方程序列 首达时间 最优马氏策略
下载PDF
一种基于随机投影的贝叶斯时间差分算法 被引量:1
6
作者 刘全 于俊 +2 位作者 王辉 傅启明 朱斐 《电子学报》 EI CAS CSCD 北大核心 2016年第11期2752-2757,共6页
在强化学习方法中,大部分的算法都是基于值函数评估的算法.高斯过程时间差分算法利用贝叶斯方法来评估值函数,通过贝尔曼公式和贝叶斯规则,建立立即奖赏与值函数之间的概率生成模型.在状态空间中,通过在线核稀疏化并利用最小二乘方法来... 在强化学习方法中,大部分的算法都是基于值函数评估的算法.高斯过程时间差分算法利用贝叶斯方法来评估值函数,通过贝尔曼公式和贝叶斯规则,建立立即奖赏与值函数之间的概率生成模型.在状态空间中,通过在线核稀疏化并利用最小二乘方法来求解新样本的近似线性逼近,以提高算法的执行速度,但时间复杂度依然较高.针对在状态空间中近似状态的选择问题,在高斯过程框架下提出一种基于随机投影的贝叶斯时间差分算法,该算法利用哈希函数把字典状态集合中的元素映射成哈希值,根据哈希值进行分组,进而减少状态之间的比较.实验结果表明,该方法不仅能够提高算法的执行速度,而且较好地平衡了评估状态值函数精度和算法执行时间. 展开更多
关键词 强化学习 马尔科夫决策过程 高斯过程 随机投影 时间差分算法
下载PDF
特大城市居民出行行为决策研究 被引量:2
7
作者 顾玉磊 陈文强 吴群琪 《湘潭大学自然科学学报》 CAS CSCD 北大核心 2012年第4期8-12,共5页
为研究特大城市居民出行决策规律,以居民常规出行方式(步行和乘公交车)为研究对象,以期望效用理论为理论基础,以居民出行时间价值损失最小为约束条件,构建居民出行行为的马尔科夫决策模型.研究结果显示:在特定的出行范围内,居民出行行... 为研究特大城市居民出行决策规律,以居民常规出行方式(步行和乘公交车)为研究对象,以期望效用理论为理论基础,以居民出行时间价值损失最小为约束条件,构建居民出行行为的马尔科夫决策模型.研究结果显示:在特定的出行范围内,居民出行行为决策与居民的出行时间价值关系密切,出行时间价值越高,选择可靠性高、时间价值实现风险低的出行方式概率越大. 展开更多
关键词 出行决策 出行时间价值 出行方式 马尔科夫决策过程
下载PDF
基于概率时间自动机的模型检测反例表示研究
8
作者 王晶 张广泉 《苏州大学学报(自然科学版)》 CAS 2011年第2期36-42,47,共8页
近年来,概率系统在实际中应用越来越广泛,其中模型检测基于概率系统的反例生成问题,已引起人们的广泛关注,现有的工作主要围绕模型检测Markov链反例生成展开.概率时间自动机(PTA)是Markov链的不确定性和系统时钟的扩展,针对模型检测PTA... 近年来,概率系统在实际中应用越来越广泛,其中模型检测基于概率系统的反例生成问题,已引起人们的广泛关注,现有的工作主要围绕模型检测Markov链反例生成展开.概率时间自动机(PTA)是Markov链的不确定性和系统时钟的扩展,针对模型检测PTA的反例表示问题,首先将PTA的语义表示为Markov决策过程(MDP),通过策略解决MDP不确定性,将MDP转换为离散时间Markov链(DTMC);然后将DTMC转换为带权有向图,则PTA中最小反例问题转化为带权有向图中最短路径问题;最后采用正则表达式表示求得的反例. 展开更多
关键词 反例 概率时间自动机 离散时间Markov链 MARKOV决策过程
下载PDF
离散跳变无限不定随机线性二次控制
9
作者 张志铭 王文莹 《山东理工大学学报(自然科学版)》 CAS 2017年第1期43-48,共6页
主要论述了伴有状态和控制独立噪音的无限离散时间系统的带马尔科夫跳的随机线性二次控制问题.该问题给出了一个包含等式和不等式约束的广义代数黎卡提方程(GARE).跳变不定线性二次控制(LQC)问题的适定性被证明与一个线性矩阵不等式(LMI... 主要论述了伴有状态和控制独立噪音的无限离散时间系统的带马尔科夫跳的随机线性二次控制问题.该问题给出了一个包含等式和不等式约束的广义代数黎卡提方程(GARE).跳变不定线性二次控制(LQC)问题的适定性被证明与一个线性矩阵不等式(LMI)的可行性是等价的;并且GARE一个镇定解的存在性等价于跳变线性二次控制问题的可达性.最后给出了一个基于LMI的方法通过半定规划来解决GARE. 展开更多
关键词 离散时间系统 马尔科夫跳跃过程 不定随机线性二次控制 广义代数黎卡提方程 半定规划 线性矩阵不等式
下载PDF
互联电网CPS调节指令动态最优分配Q–学习算法 被引量:25
10
作者 余涛 王宇名 刘前进 《中国电机工程学报》 EI CSCD 北大核心 2010年第7期62-69,共8页
控制性能标准(control performance standard,CPS)下互联电网调度端的自动发电控制(automatic generation control,AGC)指令(简称CPS指令)到各类型AGC机组的动态优化分配是随机最优问题。将CPS指令分配的连续控制过程离散化,并可将其看... 控制性能标准(control performance standard,CPS)下互联电网调度端的自动发电控制(automatic generation control,AGC)指令(简称CPS指令)到各类型AGC机组的动态优化分配是随机最优问题。将CPS指令分配的连续控制过程离散化,并可将其看作是一个离散时间马尔可夫决策过程,提出应用基于Q–学习的动态控制方法。根据优化目标的差异,设计不同的奖励函数,并将其引入到算法当中,有效结合水、火电机组的调节特性,并考虑水电机组的调节裕度,提高AGC系统调节能力。遗传算法和工程实用方法在标准两区域模型及南方电网模型的仿真研究显示,Q–学习有效提高了系统的适应性、鲁棒性和CPS考核合格率。 展开更多
关键词 Q-学习 随机最优 离散时间马尔可夫决策过程 控制性能标准 自动发电控制
下载PDF
基于POMDP的认知无线电自适应频谱感知算法 被引量:12
11
作者 许瑞琛 蒋挺 《通信学报》 EI CSCD 北大核心 2013年第6期49-56,共8页
针对如何建立适合毫秒级频谱空洞场景的频谱感知机制这一问题,推导出最佳次级用户单次数据传输时间长度,解决了数据传输量最大化的问题;其次提出一种基于部分可观测马尔科夫决策过程(POMDP,partiallyobservable Markov decision process... 针对如何建立适合毫秒级频谱空洞场景的频谱感知机制这一问题,推导出最佳次级用户单次数据传输时间长度,解决了数据传输量最大化的问题;其次提出一种基于部分可观测马尔科夫决策过程(POMDP,partiallyobservable Markov decision process)的自适应频谱感知算法,解决了快速接入毫秒级频谱空洞的问题。该算法根据上一决策时段的信念向量和感知结果自适应确定在当前决策时段内进行频谱感知或数据传输行为。仿真结果表明,该自适应频谱感知算法能够有效控制次级用户和主用户的冲突概率并增加频谱利用率。 展开更多
关键词 部分可观测马尔科夫决策过程 自适应感知 数据传输时间 冲突概率 频谱利用率
下载PDF
基于面向对象的信息系统风险评估方法 被引量:5
12
作者 王桢珍 武小悦 谢永强 《计算机工程与应用》 CSCD 北大核心 2009年第30期92-94,112,共4页
风险评估是信息系统安全保证的核心和关键。对现有的风险评估方法进行分析评价,将面向对象的系统分析思想引入信息系统的风险评估中,完善了系统风险评估方法。能够在信息系统建设初期确定系统中关键的、高风险组件或子系统,可有效指导... 风险评估是信息系统安全保证的核心和关键。对现有的风险评估方法进行分析评价,将面向对象的系统分析思想引入信息系统的风险评估中,完善了系统风险评估方法。能够在信息系统建设初期确定系统中关键的、高风险组件或子系统,可有效指导系统安全防护工作的经济高效开展。 展开更多
关键词 风险评估 面向对象 体系结构 离散时间马尔科夫过程
下载PDF
基于改进MDP的边缘计算任务卸载研究
13
作者 林涛 王瑞祥 石琳 《计算机仿真》 北大核心 2023年第3期359-363,389,共6页
针对强化学习进行边缘计算任务卸载时,面临大规模动作空间导致的收敛慢,计算速率低的问题,采用改进马尔科夫决策过程(Markov Decision Process, MDP)的移动边缘计算任务卸载算法。首先对信道增益去噪,使用时间卷积网络(Temporal convolu... 针对强化学习进行边缘计算任务卸载时,面临大规模动作空间导致的收敛慢,计算速率低的问题,采用改进马尔科夫决策过程(Markov Decision Process, MDP)的移动边缘计算任务卸载算法。首先对信道增益去噪,使用时间卷积网络(Temporal convolutional network, TCN)生成卸载动作,然后根据改进的MDP选择最优卸载动作,引入经验回放机制存储最优卸载动作,依据提出的概率优先级抽样训练TCN,最终得到最佳卸载策略与资源分配。实验对比任务全部本地处理、全部卸载、长短期记忆网络融合改进MDP等基准算法,由结果得出模型可以快速收敛,有效提高计算速率,证明了模型的有效性和可靠性。 展开更多
关键词 边缘计算 改进马尔科夫决策过程 时间卷积网络 概率优先级抽样 任务卸载
下载PDF
对数效用分红支付问题
14
作者 邹小龙 周欢 郭先平 《中国科学:数学》 CSCD 北大核心 2016年第10期1637-1648,共12页
本文研究具有对数效用函数的风险灵敏保险公司的最优分红问题.首先建立分红支付问题的离散时间Markov决策过程模型(简称DTMDP),优化目标是最大化公司破产前分红现值的对数的期望值.在较弱的假设下,本文证明值函数满足最优方程.然后得到... 本文研究具有对数效用函数的风险灵敏保险公司的最优分红问题.首先建立分红支付问题的离散时间Markov决策过程模型(简称DTMDP),优化目标是最大化公司破产前分红现值的对数的期望值.在较弱的假设下,本文证明值函数满足最优方程.然后得到这个最优方程最大的最大点的若干性质.最后证明最大的最大点在每个时刻的映射值全体构成一个最优分红策略. 展开更多
关键词 离散时间Markov决策过程 最优分红策略 风险理论 对数效用函数 动态规划
原文传递
面向半紧急急诊患者的动态入院配额研究
15
作者 戴嘉俊 耿娜 谢晓岚 《工业工程与管理》 CSSCI 北大核心 2018年第4期150-155,共6页
面对急诊随机的入院需求和住院时间以及有限的病床资源,医院急诊部门需要有效的入院控制策略来平衡接收患者的收益与加床或转院的成本。为解决此问题,将急诊患者入院需求分为紧急需求与半紧急需求,建立了马尔科夫决策过程模型,通过... 面对急诊随机的入院需求和住院时间以及有限的病床资源,医院急诊部门需要有效的入院控制策略来平衡接收患者的收益与加床或转院的成本。为解决此问题,将急诊患者入院需求分为紧急需求与半紧急需求,建立了马尔科夫决策过程模型,通过对模型的理论分析,提出了入院配额控制策略,即在知道入院需求之前确定接收半紧急患者的配额,在半紧急患者接收数目达到配额后不再接受此类患者新的入院请求的策略。基于特定假设,证明了最优入院控制策略是配额控制策略。设计了几种启发式策略,并用离散事件仿真方法,对不同参数组合做了数值实验。结果表明提出的启发式策略优于常用的策略,能够平衡医院收益与成本,提高医院平均净收益。 展开更多
关键词 入院控制 配额控制 马尔科夫决策过程 离散事件仿真
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部