期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
一类可数Markov控制过程的最优平稳策略 被引量:1
1
作者 殷保群 李衍杰 +1 位作者 奚宏生 周亚平 《控制理论与应用》 EI CAS CSCD 北大核心 2005年第1期43-46,共4页
研究了一类具有可数状态空间的Markov控制过程在无限水平平均代价准则下的最优平稳策略问题.对此类过程,引入了折扣Poisson方程,运用无穷小矩阵和性能势的基本性质,导出了平均代价模型在紧致行动集上的最优性方程,并证明了其解的一个存... 研究了一类具有可数状态空间的Markov控制过程在无限水平平均代价准则下的最优平稳策略问题.对此类过程,引入了折扣Poisson方程,运用无穷小矩阵和性能势的基本性质,导出了平均代价模型在紧致行动集上的最优性方程,并证明了其解的一个存在性定理. 展开更多
关键词 可数Markov控制过程 性能势 平均代价准则 紧致行动集 最优平稳策略
下载PDF
半Markov控制过程在折扣代价准则下的最优平稳策略 被引量:1
2
作者 殷保群 李衍杰 +1 位作者 周亚平 奚宏生 《控制与决策》 EI CSCD 北大核心 2004年第6期691-694,共4页
讨论一类半Markov控制过程(SMCP)的折扣代价性能优化问题.通过引入一个矩阵,该矩阵可作为一个Markov过程的无穷小矩阵,对一个SMCP定义了折扣Poisson方程,并由这个方程定义了α 势.基于α 势,给出了由最优平稳策略所满足的最优性方程.最... 讨论一类半Markov控制过程(SMCP)的折扣代价性能优化问题.通过引入一个矩阵,该矩阵可作为一个Markov过程的无穷小矩阵,对一个SMCP定义了折扣Poisson方程,并由这个方程定义了α 势.基于α 势,给出了由最优平稳策略所满足的最优性方程.最后给出一个求解最优平稳策略的迭代算法,并提供一个数值例子以表明该算法的应用. 展开更多
关键词 半Markovr控制过程 折扣代价准则 折扣Poisson方程 α-势 最优性方程 最优平稳策略
下载PDF
随机平稳策略下半Markov决策过程的仿真优化算法
3
作者 代桂平 唐昊 奚宏生 《控制理论与应用》 EI CAS CSCD 北大核心 2006年第4期547-551,共5页
基于性能势理论和等价Markov过程方法,研究了一类半Markov决策过程(SMDP)在参数化随机平稳策略下的仿真优化算法,并简要分析了算法的收敛性.通过SMDP的等价Markov过程,定义了一个一致化Markov链,然后根据该一致化Markov链的单个样本轨... 基于性能势理论和等价Markov过程方法,研究了一类半Markov决策过程(SMDP)在参数化随机平稳策略下的仿真优化算法,并简要分析了算法的收敛性.通过SMDP的等价Markov过程,定义了一个一致化Markov链,然后根据该一致化Markov链的单个样本轨道来估计SMDP的平均代价性能指标关于策略参数的梯度,以寻找最优(或次优)策略.文中给出的算法是利用神经元网络来逼近参数化随机平稳策略,以节省计算机内存,避免了“维数灾”问题,适合于解决大状态空间系统的性能优化问题.最后给出了一个仿真实例来说明算法的应用. 展开更多
关键词 随机平稳策略 等价Markov过程 一致化Markov链 神经元动态规划 仿真优化
下载PDF
具有平均准则的离散马氏规划——最优平稳策略存在的较弱条件
4
作者 郑少慧 《山东矿业学院学报》 CAS 1989年第4期95-100,共6页
本文讨论了离散参数马氏规划(简记为DTMDP)的最优策略存在问题,对状态空间和行动集均为可列集的模型,给出了保证平稳最优策略存在的条件。
关键词 马氏决策 随机规划 平稳策略 平均
下载PDF
多阶段随机规划的稳定平稳策略
5
作者 颜铁成 《苏州科技学院学报(社会科学版)》 1991年第S2期1-8,14,共9页
众所周知,迄今我们在解多阶段随机规划时所遇到的困难是由于这样一个事实的复合作用而产生的,即可能的实现值的个数随着阶段数的增加而成指数增加,也就是人们所说的“维数恶魔”。本文对很广泛的一类多阶段随机规划模型,提出了稳定策略... 众所周知,迄今我们在解多阶段随机规划时所遇到的困难是由于这样一个事实的复合作用而产生的,即可能的实现值的个数随着阶段数的增加而成指数增加,也就是人们所说的“维数恶魔”。本文对很广泛的一类多阶段随机规划模型,提出了稳定策略的新概念来对付这个“恶魔”。稳定策略不同于平稳策略,是避免可能的实现值成指数增加的策略。本文研究了稳定策略以及稳定的平稳策略的某些性质,并对一种具体情形,证明了寻找最优稳定平稳策略等价于寻找某种带补偿的三阶段随机规划的最优解。最后给出了一些计算结果,这些结果反映了新的概念的优点。 展开更多
关键词 多阶段随机规划 稳定策略 平稳策略 随机过程 非随机偿付
下载PDF
无界报酬向量值折扣马氏决策规划──最优平稳策略及算法
6
作者 张升 张继红 《云南大学学报(自然科学版)》 CAS CSCD 1994年第4期299-305,共7页
本文主要讨论了无界报酬向量模型的平稳策略问题,给出了改进平稳策略的方法,建立起向量模型的最优方程,获得平稳策略为强最优策略的充要条件.指出最优平稳策略的期望报酬函数必为极大不动点,最后提出一种寻求最优平稳策略的策略迭... 本文主要讨论了无界报酬向量模型的平稳策略问题,给出了改进平稳策略的方法,建立起向量模型的最优方程,获得平稳策略为强最优策略的充要条件.指出最优平稳策略的期望报酬函数必为极大不动点,最后提出一种寻求最优平稳策略的策略迭代算法. 展开更多
关键词 折扣马氏决策规划 最优平稳策略 无界报酬向量
原文传递
HX_D1型八轴电力机车平稳性控制策略研究 被引量:5
7
作者 张涛 肖家博 《机车电传动》 北大核心 2018年第6期55-58,共4页
对HX_D1型八轴电力机车平稳性控制进行分析,提出一种基于准恒速控制模式采用多模型自适应的平稳性控制策略,论证该控制策略实现方法和控制效果,通过模拟测试和现场试验验证了该控制策略的可行性。试验结果证明,该控制策略能够根据机车... 对HX_D1型八轴电力机车平稳性控制进行分析,提出一种基于准恒速控制模式采用多模型自适应的平稳性控制策略,论证该控制策略实现方法和控制效果,通过模拟测试和现场试验验证了该控制策略的可行性。试验结果证明,该控制策略能够根据机车运行工况进行自适应控制,确保机车平稳运行。 展开更多
关键词 HXD1型八轴电力机车 平稳性控制策略 多模型 准恒速控制模式
下载PDF
射频能量收集认知无线电网络的最优时限约束频谱接入 被引量:1
8
作者 张凯 沈世林 +3 位作者 房婷 张葳 林艳 张一晋 《南京理工大学学报》 CAS CSCD 北大核心 2024年第2期218-226,共9页
为了在能量收集与传输时限约束下优化认知无线电网络次用户的机会式频谱接入,该文综合考虑信道状态的时变性与观测性,基于队列所有数据包的传输紧迫性对次用户时限约束频谱接入进行马尔可夫决策过程(MDP)建模。证明此MDP建模具有单链性... 为了在能量收集与传输时限约束下优化认知无线电网络次用户的机会式频谱接入,该文综合考虑信道状态的时变性与观测性,基于队列所有数据包的传输紧迫性对次用户时限约束频谱接入进行马尔可夫决策过程(MDP)建模。证明此MDP建模具有单链性质,进而使用价值迭代算法求解确定性平稳ε-最优策略,有效降低了最优策略求解复杂度。仿真结果在不同网络参数配置下验证了该文策略相较于贪婪策略的吞吐率性能优势。 展开更多
关键词 传输时限 能量收集 认知无线电 马尔可夫决策过程 吞吐率 机会式接入 计算复杂度 确定性平稳策略
下载PDF
Markov控制过程基于性能势的平均代价最优策略 被引量:4
9
作者 周亚平 奚宏生 +1 位作者 殷保群 孙德敏 《自动化学报》 EI CSCD 北大核心 2002年第6期904-910,共7页
研究了一类离散时间 Markov控制过程平均代价性能最优控制决策问题 .应用Markov性能势的基本性质 ,在很一般性的假设条件下 ,直接导出了无限时间平均代价模型在紧致行动集上的最优性方程及其解的存在性定理 .提出了求解最优平稳控制策... 研究了一类离散时间 Markov控制过程平均代价性能最优控制决策问题 .应用Markov性能势的基本性质 ,在很一般性的假设条件下 ,直接导出了无限时间平均代价模型在紧致行动集上的最优性方程及其解的存在性定理 .提出了求解最优平稳控制策略的迭代算法 ,并讨论了这种算法的收敛性问题 .最后通过分析一个实例来说明这种算法的应用 . 展开更多
关键词 MARKOV控制过程 性能势 平均代价模型 最优平稳策略 最优控制
下载PDF
多阶段随机规划中的一类可行策略 被引量:4
10
作者 颜铁成 《系统工程学报》 CSCD 1995年第2期41-47,共7页
多阶段随机规划的求解是一项很困难的工作。本文首次给出了它的一类比较简单易求而又较好的可行策略,证明了这类策略是平稳策略,它可以抑制状态变量实现值的个数成指数增长。在这类可行策略上求最优策略的问题是一个解带补偿的三阶段... 多阶段随机规划的求解是一项很困难的工作。本文首次给出了它的一类比较简单易求而又较好的可行策略,证明了这类策略是平稳策略,它可以抑制状态变量实现值的个数成指数增长。在这类可行策略上求最优策略的问题是一个解带补偿的三阶段随机规划的问题,其最优目标值是原问题最犹目标值的很紧的上界估计。 展开更多
关键词 多阶段随机规划 平稳策略 随机规划
下载PDF
Polish空间上的折扣马氏过程量子化策略的渐近优化
11
作者 吴晓 孔荫莹 郭圳滨 《数学物理学报(A辑)》 CSCD 北大核心 2022年第2期594-604,共11页
该文研究了Polish空间上、带折扣因子的连续时间马尔可夫决策过程(CTMDPs)的量子化平稳策略的渐近最优性问题.首先,建立了折扣最优方程(DOE)及其解的存在性和唯一性.其次,在适当的条件下证明了最优确定性平稳策略的存在性.此外,为了对... 该文研究了Polish空间上、带折扣因子的连续时间马尔可夫决策过程(CTMDPs)的量子化平稳策略的渐近最优性问题.首先,建立了折扣最优方程(DOE)及其解的存在性和唯一性.其次,在适当的条件下证明了最优确定性平稳策略的存在性.此外,为了对行动空间进行离散化,构造了一列量子化策略,利用有限行动空间的策略来逼近一般(Polish)空间上的折扣CTMDPs最优平稳策略.最后,通过一个例子来说明该文的渐近逼近结果. 展开更多
关键词 连续时间马尔可夫决策过程 依赖状态折扣因子 折扣准则 量子化平稳策略 渐近最优性
下载PDF
区域锅炉房自控系统的控制策略与原理
12
作者 陈立刚 吴亚青 刘静敏 《区域供热》 2005年第5期34-37,共4页
本文介绍了我公司研发的区域供热锅炉房自控系统的室外温度T0修整策略、平稳策略、人工智能策略三大控制策略与一次供水温度的控制原理、二次供水温度的控制原理。
关键词 自控系统 控制策略 室外温度T0修整 人工智能 系统控制原理 控制策略 自控系统 区域锅炉房 供水温度 供热锅炉房 室外温度 平稳策略 人工智能
下载PDF
基于注意力机制的信息预处理多智能体强化学习算法
13
作者 杜泳韬 赵岭忠 翟仲毅 《国外电子测量技术》 2024年第3期91-97,共7页
多智能体强化学习在群体控制领域具有广泛应用,然而传统的强化学习方法(如Q-Learning或策略梯度)在多智能体环境中表现不佳。在训练过程中,每个智能体的策略不断变化。当一个智能体基于环境信息做出决策时,其他智能体的决策可能已经影... 多智能体强化学习在群体控制领域具有广泛应用,然而传统的强化学习方法(如Q-Learning或策略梯度)在多智能体环境中表现不佳。在训练过程中,每个智能体的策略不断变化。当一个智能体基于环境信息做出决策时,其他智能体的决策可能已经影响了环境信息,导致智能体感知的转移概率分布和奖赏函数发生变化,使得环境变得非平稳,训练无法有效进行。为了缓解这一问题,研究了一种基于多头自注意力的多智能体强化学习算法。该方法考虑了其他智能体的行动策略,利用多头自注意力算法使智能体能够学习对决策影响最大的因素,成功地学习了复杂的多智能体协调策略。在实验结果中平均回报达值到了0.82,远高于传统算法的表现。实验结果表明,所提出的基于多头自注意力的多智能体强化学习算法能够有效解决环境不平稳导致的多智能体学习困难问题,提高了多智能体强化学习算法的收敛速度和平稳性。 展开更多
关键词 多智能体强化学习 多头自注意力 信息预处理:策略梯度:非平稳
下载PDF
Markov控制过程基于单个样本轨道的在线优化算法 被引量:5
14
作者 唐昊 奚宏生 殷保群 《控制理论与应用》 EI CAS CSCD 北大核心 2002年第6期865-871,共7页
在Markov性能势理论基础上 ,研究了Markov控制过程的性能优化算法 .不同于传统的基于计算的方法 ,文中的算法是根据单个样本轨道的仿真来估计性能指标关于策略参数的梯度 ,以寻找最优 (或次优 )随机平稳策略 .由于可根据不同实际系统的... 在Markov性能势理论基础上 ,研究了Markov控制过程的性能优化算法 .不同于传统的基于计算的方法 ,文中的算法是根据单个样本轨道的仿真来估计性能指标关于策略参数的梯度 ,以寻找最优 (或次优 )随机平稳策略 .由于可根据不同实际系统的特征来选择适当的算法参数 ,因此它能满足不同实际工程系统在线优化的需要 .最后简要分析了这些算法在一个无限长的样本轨道上以概率 1的收敛性 ,并给出了一个三 状态受控Markov过程的数值实例 . 展开更多
关键词 MARKOV控制过程 单个样本轨道 在线优化算法 离散事件动态系统 随机平稳策略
下载PDF
受控M/G/1排队系统的性能优化及迭代算法 被引量:3
15
作者 代桂平 殷保群 +1 位作者 王肖龙 奚宏生 《系统仿真学报》 CAS CSCD 2004年第8期1683-1685,共3页
通过嵌入Markov链的方法,讨论了受控M/G/1排队系统,在无限水平平均代价准则下的最优平稳策略问题。定义了平均Poisson方程,导出了平均代价模型在紧致行动集上的最优性方程。最后给出了一个求解最优平稳策略的迭代算法,并给出了一个仿真... 通过嵌入Markov链的方法,讨论了受控M/G/1排队系统,在无限水平平均代价准则下的最优平稳策略问题。定义了平均Poisson方程,导出了平均代价模型在紧致行动集上的最优性方程。最后给出了一个求解最优平稳策略的迭代算法,并给出了一个仿真实例来说明该算法的应用。 展开更多
关键词 受控M/G/1排队系统 平均代价准则 紧致行动集 最优平稳策略 迭代算法
下载PDF
半Markov决策过程折扣模型与平均模型之间的关系 被引量:1
16
作者 殷保群 李衍杰 +2 位作者 唐昊 代桂平 奚宏生 《控制理论与应用》 EI CAS CSCD 北大核心 2006年第1期65-68,共4页
首先分别在折扣代价与平均代价性能准则下,讨论了一类半M arkov决策问题.基于性能势方法,导出了由最优平稳策略所满足的最优性方程.然后讨论了两种模型之间的关系,表明了平均模型的有关结论,可以通过对折扣模型相应结论取折扣因子趋于... 首先分别在折扣代价与平均代价性能准则下,讨论了一类半M arkov决策问题.基于性能势方法,导出了由最优平稳策略所满足的最优性方程.然后讨论了两种模型之间的关系,表明了平均模型的有关结论,可以通过对折扣模型相应结论取折扣因子趋于零时的极限来得到. 展开更多
关键词 半MARKOV决策过程 折扣模型 平均模型 最优性方程 最优平稳策略
下载PDF
Markov控制过程基于神经元动态规划的优化算法 被引量:1
17
作者 唐昊 奚宏生 殷保群 《中国科学技术大学学报》 CAS CSCD 北大核心 2001年第5期549-557,共9页
论文在Markov性能势理论基础上 ,研究了Markov控制过程在神经元网络等逼近结构表示的随机平稳策略作用下的仿真优化算法 ;分析了它们在一个无限长的样本轨道上以概率 1的收敛性 ;并给出了一个三
关键词 Markov性能势理论 MARKOV控制过程 随机平稳策略 样本轨道 神经元动态规划 随机决策问题
下载PDF
基于深度强化学习的动态库存路径优化 被引量:5
18
作者 周建频 张姝柳 《系统仿真学报》 CAS CSCD 北大核心 2019年第10期2155-2163,共9页
针对具有周期性波动需求的动态随机库存路径问题,提出了基于深度强化学习进行仿真优化并实现周期平稳策略的新方法。所研究问题构建动态组合优化模型,通过深度强化学习和设置启发规则来综合决定每个时期的补货节点集合和补货批量分配权... 针对具有周期性波动需求的动态随机库存路径问题,提出了基于深度强化学习进行仿真优化并实现周期平稳策略的新方法。所研究问题构建动态组合优化模型,通过深度强化学习和设置启发规则来综合决定每个时期的补货节点集合和补货批量分配权重。仿真实验结果表明,与现有文献中的两种方法相比,所提出的方法在较低波动需求情况下可分别提高一个周期的平均利润约2.7%和3.9%,在较高波动需求情况下提高约8.2%和7.1%,而周期服务水平在不同需求波动环境下都可以平稳地保持在一个较小的波动范围内。 展开更多
关键词 库存路径问题 启发规则 深度Q-学习 动态 周期平稳策略
下载PDF
连续时间的折扣向量值马氏决策模型 被引量:1
19
作者 秦叔明 刘俊 王莉 《昆明理工大学学报(自然科学版)》 CAS 1996年第S1期73-76,共4页
将连续时间标量值折扣马氏决策模型(简记为MDP)的主要结果(最优方程,平稳策略优势,最优策略)均在向量值模型中作了推广,使标量值模型成为其特款.
关键词 连续时间 向量值马氏决策模型 平稳策略优势
下载PDF
MDP平均模型的强最优性
20
作者 郭先平 《湖南师范大学自然科学学报》 CAS 1996年第1期21-24,共4页
考虑的是任意状态空间,任意行动空间MDP平均模型的四个平均准则,在O.H.Lerma的遍历性条件下,利用稳定性定理和可测选择理论简明地证明了存在平稳策略关于此模型的四个平均准则同时是最优的,从而扩充并加强了O.H.L... 考虑的是任意状态空间,任意行动空间MDP平均模型的四个平均准则,在O.H.Lerma的遍历性条件下,利用稳定性定理和可测选择理论简明地证明了存在平稳策略关于此模型的四个平均准则同时是最优的,从而扩充并加强了O.H.Lerma(1989)的主要结果. 展开更多
关键词 马氏决策规划 平均目标 强最优 遍历性 平稳策略
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部