期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
马尔可夫决策过程两种抽象模式 被引量:2
1
作者 王蓁蓁 邢汉承 +1 位作者 张志政 倪庆剑 《计算机科学》 CSCD 北大核心 2008年第10期6-14,48,共10页
抽象层次上马尔可夫决策过程的引入,使得人们可简洁地、陈述地表达复杂的马尔可夫决策过程,解决常规马尔可夫决策过程(MDPs)在实际中所遇到的大型状态空间的表达问题。介绍了结构型和概括型两种不同类型抽象马尔可夫决策过程基本概念以... 抽象层次上马尔可夫决策过程的引入,使得人们可简洁地、陈述地表达复杂的马尔可夫决策过程,解决常规马尔可夫决策过程(MDPs)在实际中所遇到的大型状态空间的表达问题。介绍了结构型和概括型两种不同类型抽象马尔可夫决策过程基本概念以及在各种典型抽象MDPs中的最优策略的精确或近似算法,其中包括与常规MDPs根本不同的一个算法:把Bellman方程推广到抽象状态空间的方法,并且对它们的研究历史进行总结和对它们的发展做一些展望,使得人们对它们有一个透彻的、全面而又重点的理解。 展开更多
关键词 情景演算 因子化马尔可夫决策过程 逻辑马尔可夫决策过程 关系马尔可夫决策过程 Bellman方程
下载PDF
基于马尔可夫过程的牵引供电设备维修决策模型及其应用 被引量:5
2
作者 张奥 林圣 +1 位作者 冯玎 何正友 《铁道学报》 EI CAS CSCD 北大核心 2017年第11期38-45,共8页
传统的牵引供电设备固定计划维修模式存在着维修过剩与维修不足的问题,随着维管单位和牵引变电所信息化水平的逐步提高,状态维修模式取代固定计划维修模式已成为可能。本文将设备健康状态引入牵引供电设备维修决策中,基于马尔可夫决策... 传统的牵引供电设备固定计划维修模式存在着维修过剩与维修不足的问题,随着维管单位和牵引变电所信息化水平的逐步提高,状态维修模式取代固定计划维修模式已成为可能。本文将设备健康状态引入牵引供电设备维修决策中,基于马尔可夫决策过程建立牵引供电设备的维修决策模型。该模型考虑了基于Gauss-Poisson过程的牵引供电设备全寿命周期健康状态劣化过程和预防性维修过程,以设备全寿命周期的单位时间综合成本为优化目标,采用策略迭代法实现牵引供电设备在不同健康状态下最优维修方式和维修周期的选择。结果表明该模型可行有效,为优化牵引供电设备的维修维护方案,实现状态维修提供依据。 展开更多
关键词 牵引供电设备 过程 维修决策 马尔可夫决策过程
下载PDF
Polish空间上的折扣马氏过程量子化策略的渐近优化
3
作者 吴晓 孔荫莹 郭圳滨 《数学物理学报(A辑)》 CSCD 北大核心 2022年第2期594-604,共11页
该文研究了Polish空间上、带折扣因子的连续时间马尔可夫决策过程(CTMDPs)的量子化平稳策略的渐近最优性问题.首先,建立了折扣最优方程(DOE)及其解的存在性和唯一性.其次,在适当的条件下证明了最优确定性平稳策略的存在性.此外,为了对... 该文研究了Polish空间上、带折扣因子的连续时间马尔可夫决策过程(CTMDPs)的量子化平稳策略的渐近最优性问题.首先,建立了折扣最优方程(DOE)及其解的存在性和唯一性.其次,在适当的条件下证明了最优确定性平稳策略的存在性.此外,为了对行动空间进行离散化,构造了一列量子化策略,利用有限行动空间的策略来逼近一般(Polish)空间上的折扣CTMDPs最优平稳策略.最后,通过一个例子来说明该文的渐近逼近结果. 展开更多
关键词 连续时间马尔可夫决策过程 依赖状态折扣因子 折扣准则 量子平稳策略 渐近最优性
下载PDF
基于马尔可夫决策过程的六足机器人自由步态规划 被引量:9
4
作者 李满宏 张建华 +1 位作者 张小俊 张明路 《机器人》 EI CSCD 北大核心 2015年第5期529-537,共9页
为精细模仿生物步态,充分发挥六足机器人运动潜能,本文在离散化机器人足端轨迹的基础上,融合中枢模式发生器(CPG)模型与反射模型,建立了离散化步态模型,基于稳定性分析,构建了机器人稳定的位置状态空间,将复杂的步态规划问题等效转化为... 为精细模仿生物步态,充分发挥六足机器人运动潜能,本文在离散化机器人足端轨迹的基础上,融合中枢模式发生器(CPG)模型与反射模型,建立了离散化步态模型,基于稳定性分析,构建了机器人稳定的位置状态空间,将复杂的步态规划问题等效转化为稳定的位置状态空间中位置状态间的排序问题,在此基础上,提出了一种自由步态生成算法;并基于处理顺序决策问题的马尔可夫决策过程,以平均稳定裕量为优化指标,针对特定地形研究自由步态的优化算法.样机步态实验结果表明,自由步态生成算法与优化算法均可生成在一定程度上符合生物运动特点的稳定步态,且自由步态优化算法可针对特定地形快速规划出基于平均稳定裕量的最优步态. 展开更多
关键词 六足机器人 自由步态 步态规划 马尔可夫决策过程 离散
原文传递
复杂舰载装备系统维修决策分析 被引量:3
5
作者 全文彬 彭鹏菲 +1 位作者 黄傲林 卞鸿巍 《舰船电子工程》 2013年第2期109-112,共4页
现代舰艇装备系统复杂程度高,维修保障难度大,很多新装备由于没有制定科学的维修保障方案迟迟不能发挥作战效能。文章通过装备维修性及劣化系统分析,提出了一种复杂舰载装备系统的维修决策模型及基于最优维修策略的迭代算法。该方法可... 现代舰艇装备系统复杂程度高,维修保障难度大,很多新装备由于没有制定科学的维修保障方案迟迟不能发挥作战效能。文章通过装备维修性及劣化系统分析,提出了一种复杂舰载装备系统的维修决策模型及基于最优维修策略的迭代算法。该方法可以根据系统的状态转移概率、维修时间、费用等因素制定合理的维修方案,对于加强装备维护、降低装备运行成本具有重要参考价值。 展开更多
关键词 维修决策 系统 马尔可夫过程
下载PDF
一种基于MDP的最优服务功能链长部署策略
6
作者 徐九韵 曹雪梅 +2 位作者 颜越 赵兴儒 刘乐乐 《计算机与数字工程》 2023年第11期2633-2637,共5页
随着网络功能虚拟化技术被越来越多的服务提供商应用,许多增值服务被作为虚拟服务功能部署在云数据中心。然而,如何在频繁转变的网络中部署服务功能,使其动态的部署和分配资源仍然是亟待解决的问题。论文提出了基于马尔可夫决策过程创... 随着网络功能虚拟化技术被越来越多的服务提供商应用,许多增值服务被作为虚拟服务功能部署在云数据中心。然而,如何在频繁转变的网络中部署服务功能,使其动态的部署和分配资源仍然是亟待解决的问题。论文提出了基于马尔可夫决策过程创建服务功能实例的部署方案,有效地应对由节点、链路资源使用及用户请求引起的网络动态转换,通过权衡服务质量和服务提供商收益两个目标来最优化部署的链路长度,能够保证服务质量的同时最大化服务提供商的收益。与其他方案相比,仿真结果验证了所提出方案的有效性,面对大量的用户请求时在系统延迟以及吞吐量方面表现更好。 展开更多
关键词 网络功能虚拟 服务功能链 服务部署 马尔可夫决策过程 最优链长
下载PDF
面向大规模网络的服务功能链部署方法
7
作者 张冠莹 伊鹏 +2 位作者 李丹 朱棣 毛明 《计算机工程》 CAS CSCD 北大核心 2023年第8期122-129,共8页
网络功能虚拟化(NFV)将网络功能从硬件中间盒中解耦出来,部署功能实例并编排为服务功能链(SFC),从而实现网络服务。针对资源受限情况下大规模网络环境中的SFC动态部署问题,提出一种基于多智能体的群策部署方法,该方法结合了集中式深度... 网络功能虚拟化(NFV)将网络功能从硬件中间盒中解耦出来,部署功能实例并编排为服务功能链(SFC),从而实现网络服务。针对资源受限情况下大规模网络环境中的SFC动态部署问题,提出一种基于多智能体的群策部署方法,该方法结合了集中式深度强化学习(DRL)和传统分布式方法的优点。将SFC部署问题建模为部分可见马尔可夫决策过程,每个节点部署一个Actor-Critic智能体,仅通过观察本地节点信息即可得到全局训练策略,具有DRL的灵活性和自适应性。本地智能体控制交互过程,以解决集中式DRL方法在大规模网络中控制复杂、响应速度慢等问题。基于多线程的思想,收集、整合每个节点的经验进行集中式训练,避免完全分布式训练过程中部分节点因请求流量少而导致训练不充分、策略不适用等问题。实验结果表明,该方法无须考虑网络规模而且不依赖特定场景,可以很好地适应现实中复杂多变的网络环境,在相对复杂的流量环境中,与CDRL、GCASP方法相比,在多种流量模式下所提方法的部署成功率均提高了20%以上,同时能够降低部署成本。 展开更多
关键词 网络功能虚拟 服务功能链 深度强学习 部分可见马尔可夫决策过程 多智能体
下载PDF
基于深度Q网络的在线服务功能链部署方法 被引量:6
8
作者 邱航 汤红波 游伟 《电子与信息学报》 EI CSCD 北大核心 2021年第11期3122-3130,共9页
针对5G网络资源状态动态变化和网络模型高维度下服务功能链部署的复杂性问题,该文提出一种基于深度Q网络的在线服务功能链部署方法(DeePSCD)。首先,为描述网络资源动态变化的特征,将服务功能链部署建模成马尔可夫决策过程,然后,针对系... 针对5G网络资源状态动态变化和网络模型高维度下服务功能链部署的复杂性问题,该文提出一种基于深度Q网络的在线服务功能链部署方法(DeePSCD)。首先,为描述网络资源动态变化的特征,将服务功能链部署建模成马尔可夫决策过程,然后,针对系统资源模型的高维度问题采用深度Q网络的方法进行在线服务功能链部署策略求解。该方法可以有效描述网络资源状态的动态变化,特别是深度Q网络能有效克服求解复杂度,优化服务功能链的部署开销。仿真结果表明,所提方法在满足服务时延约束条件下降低了服务功能链的部署开销,提高了运营商网络的服务请求接受率。 展开更多
关键词 网络功能虚拟 服务功能链 马尔可夫决策过程 深度Q网络
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部