期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
最短路径树的马尔可夫有限阶段决策算法 被引量:1
1
作者 刘甜甜 贾智平 Edwin H.-M.Sha 《计算机科学》 CSCD 北大核心 2007年第8期266-270,共5页
本文从决策的角度出发,结合马尔可夫决策过程理论,建立了计算最短路径树(SPT)的有限阶段决策模型。引入一个辅助图:反转图,结合它修改了模型的理论求解算法,提出了SPT反转递归迭代算法,并证明了算法的正确性。在此基础上,又提出了不使... 本文从决策的角度出发,结合马尔可夫决策过程理论,建立了计算最短路径树(SPT)的有限阶段决策模型。引入一个辅助图:反转图,结合它修改了模型的理论求解算法,提出了SPT反转递归迭代算法,并证明了算法的正确性。在此基础上,又提出了不使用反转图的改进模型和算法。算法的时间和空间复杂度分析表明:本文提出的算法具有分布式并行计算的特点,可以均衡各节点的工作负载,降低时间和空间复杂度,并可以有效防止环路的产生,因此可以有效应用于资源匮乏的嵌入式互连环境和对等网络环境中。 展开更多
关键词 最短路径树 马尔可夫决策过程 有限阶段模型 反转图 分布式并行计算
下载PDF
嵌入式通信中间件的马尔可夫路由决策与选择 被引量:1
2
作者 贾智平 刘甜甜 +1 位作者 张承慧 Edwin H.-M.Sha 《电子学报》 EI CAS CSCD 北大核心 2007年第7期1228-1233,共6页
针对嵌入式设备互连环境和嵌入式通信中间件的特点,结合马尔可夫决策过程理论,建立了解决路由问题的有限阶段模型,并修改马尔可夫有限阶段模型的向后递归迭代算法,提出了马尔可夫有限阶段决策路由算法MFHDR(Markov Finite Horizon Decis... 针对嵌入式设备互连环境和嵌入式通信中间件的特点,结合马尔可夫决策过程理论,建立了解决路由问题的有限阶段模型,并修改马尔可夫有限阶段模型的向后递归迭代算法,提出了马尔可夫有限阶段决策路由算法MFHDR(Markov Finite Horizon Decision Routing).该算法具有分布计算和自我学习的特性,从而降低了单台嵌入式设备的工作强度,均衡了各台设备的负载,具有较好的时间和空间复杂度,并且能够有效的避免环路的产生. 展开更多
关键词 嵌入式设备互连 嵌入式通信中间件 马尔可夫决策过程 有限阶段模型 分布计算
下载PDF
基于马尔可夫决策过程的六足机器人自由步态规划 被引量:9
3
作者 李满宏 张建华 +1 位作者 张小俊 张明路 《机器人》 EI CSCD 北大核心 2015年第5期529-537,共9页
为精细模仿生物步态,充分发挥六足机器人运动潜能,本文在离散化机器人足端轨迹的基础上,融合中枢模式发生器(CPG)模型与反射模型,建立了离散化步态模型,基于稳定性分析,构建了机器人稳定的位置状态空间,将复杂的步态规划问题等效转化为... 为精细模仿生物步态,充分发挥六足机器人运动潜能,本文在离散化机器人足端轨迹的基础上,融合中枢模式发生器(CPG)模型与反射模型,建立了离散化步态模型,基于稳定性分析,构建了机器人稳定的位置状态空间,将复杂的步态规划问题等效转化为稳定的位置状态空间中位置状态间的排序问题,在此基础上,提出了一种自由步态生成算法;并基于处理顺序决策问题的马尔可夫决策过程,以平均稳定裕量为优化指标,针对特定地形研究自由步态的优化算法.样机步态实验结果表明,自由步态生成算法与优化算法均可生成在一定程度上符合生物运动特点的稳定步态,且自由步态优化算法可针对特定地形快速规划出基于平均稳定裕量的最优步态. 展开更多
关键词 六足机器人 自由步态 步态规划 马尔可夫决策过程 离散
原文传递
互联电网CPS调节指令动态最优分配Q–学习算法 被引量:25
4
作者 余涛 王宇名 刘前进 《中国电机工程学报》 EI CSCD 北大核心 2010年第7期62-69,共8页
控制性能标准(control performance standard,CPS)下互联电网调度端的自动发电控制(automatic generation control,AGC)指令(简称CPS指令)到各类型AGC机组的动态优化分配是随机最优问题。将CPS指令分配的连续控制过程离散化,并可将其看... 控制性能标准(control performance standard,CPS)下互联电网调度端的自动发电控制(automatic generation control,AGC)指令(简称CPS指令)到各类型AGC机组的动态优化分配是随机最优问题。将CPS指令分配的连续控制过程离散化,并可将其看作是一个离散时间马尔可夫决策过程,提出应用基于Q–学习的动态控制方法。根据优化目标的差异,设计不同的奖励函数,并将其引入到算法当中,有效结合水、火电机组的调节特性,并考虑水电机组的调节裕度,提高AGC系统调节能力。遗传算法和工程实用方法在标准两区域模型及南方电网模型的仿真研究显示,Q–学习有效提高了系统的适应性、鲁棒性和CPS考核合格率。 展开更多
关键词 Q-学习 随机最优 离散时间马尔可夫决策过程 控制性能标准 自动发电控制
下载PDF
基于近似动态规划的模具项目调度 被引量:4
5
作者 王小明 陈庆新 毛宁 《计算机集成制造系统》 EI CSCD 北大核心 2020年第6期1691-1701,共11页
模具制造工程中普遍存在任务工期不确定,以及多并行项目共享和竞争企业有限资源的情形,目前尚缺乏求解这类项目调度问题的方法。鉴于此,考虑了部分任务工期服从已知离散分布下的模具项目调度问题,基于马尔可夫决策过程理论构建了以总加... 模具制造工程中普遍存在任务工期不确定,以及多并行项目共享和竞争企业有限资源的情形,目前尚缺乏求解这类项目调度问题的方法。鉴于此,考虑了部分任务工期服从已知离散分布下的模具项目调度问题,基于马尔可夫决策过程理论构建了以总加权拖期成本期望最小为优化目标的数学模型。针对传统随机动态规划在求解大规模问题时面临的维数灾,分别提出了基于经典优先规则、遗传算法和近似动态规划的求解方法。通过随机生成的项目算例验证了所构建模型和方法的有效性。结果表明,所提近似方法能够在耗费较少计算资源的情形下获得可接受的次优或最优解,可用于求解工程实际问题。 展开更多
关键词 模具 项目调度 离散工期 马尔可夫决策过程 近似动态规划 优先规则
下载PDF
基于高斯混合多目标滤波器的传感器控制策略 被引量:5
6
作者 陈辉 贺忠良 +1 位作者 连峰 黎慧波 《电子学报》 EI CAS CSCD 北大核心 2019年第3期521-530,共10页
本文基于随机有限集的高斯混合多目标滤波器(Gaussian Mixture Multi-Target Filter,GM-MTF)提出几种传感器控制策略.首先,基于容积卡尔曼高斯混合多目标非线性滤波器,借助两个高斯分布之间的巴氏距离,推导GM-MTF的整体信息增益,并以此... 本文基于随机有限集的高斯混合多目标滤波器(Gaussian Mixture Multi-Target Filter,GM-MTF)提出几种传感器控制策略.首先,基于容积卡尔曼高斯混合多目标非线性滤波器,借助两个高斯分布之间的巴氏距离,推导GM-MTF的整体信息增益,并以此为基础提出相应的传感器控制策略.另外,设计高斯粒子的联合采样方法对多目标滤波器的预测高斯分量进行采样,用一组带权值的粒子去近似多目标统计特性,利用理想量测集对粒子的权值进行更新,继而研究利用Rényi散度作为评价函数,提出一种适应性更好的传感器控制策略.最后,给出基于目标势的后验期望(Posterior Expected Number of Targets,PENT)评价的高斯混合实现过程.仿真实验验证了提出算法的有效性. 展开更多
关键词 传感器控制 多目标跟踪 高斯混合 有限集统计 部分可观测马尔可夫决策过程
下载PDF
衰落信道数据包传输跨层优化模型改进 被引量:4
7
作者 冯正勇 《计算机工程》 CAS CSCD 北大核心 2016年第11期125-130,共6页
在单输入单输出无线数据包传输系统中,普遍采用马尔可夫决策过程(MDP)模型求解最优发送速率控制策略以减小传输丢包率,但在现有模型中,忽略了队列溢出丢包的影响,造成模型求解的结果与实际相比误差较大。为此,提出一种改进的跨层优化MD... 在单输入单输出无线数据包传输系统中,普遍采用马尔可夫决策过程(MDP)模型求解最优发送速率控制策略以减小传输丢包率,但在现有模型中,忽略了队列溢出丢包的影响,造成模型求解的结果与实际相比误差较大。为此,提出一种改进的跨层优化MDP模型。在一步转移报酬函数中引入队列溢出丢包的计算因子,基于改进模型求解得到新的最优发送速率控制策略。仿真结果表明,与原来的MDP模型相比,该模型更准确,其偏离仿真值的平均误差由12%降低为3%,能获得较好的最优化目标值。 展开更多
关键词 有限状态马尔可夫信道 自适应调制和编码 速率控制 马尔可夫决策过程 跨层优化
下载PDF
基于POMDP的电梯群控调度策略 被引量:1
8
作者 彭诚 姚进发 董正山 《闽江学院学报》 2022年第5期104-111,共8页
针对电梯群组系统的随机性和复杂性,以离散事件动态系统和分布式部分可观马尔可夫决策过程为理论基础,将电梯群组的调度问题建模为基于事件驱动的部分可观马尔可夫决策模型,并利用多智能体强化学习算法求解最优调度策略。仿真实验结果表... 针对电梯群组系统的随机性和复杂性,以离散事件动态系统和分布式部分可观马尔可夫决策过程为理论基础,将电梯群组的调度问题建模为基于事件驱动的部分可观马尔可夫决策模型,并利用多智能体强化学习算法求解最优调度策略。仿真实验结果表明,所提出的事件驱动Dec-POMDP调度模型不仅能够较好地描述电梯群组系统环境中的不确定性,而且能够避免维度灾难带来的策略优化难题,所得到的最优策略具有较好的调度性能。 展开更多
关键词 电梯群控系统 离散事件动态系统 马尔可夫决策过程 强化学习
下载PDF
智能电网中基于增强学习的动态价格优化算法
9
作者 曹俊 孙莹莹 赵航 《太赫兹科学与电子信息学报》 2023年第1期112-118,共7页
动态的电费价格是驱使消费者改变用电消费模式的有效手段,为此,提出基于增强学习的动态价格优化(RLODP)算法。RLODP算法结合电力服务商的利润和消费者的用电成本,对电网负载进行管理;利用增强学习算法,电力服务商自适应地决策零售价格,... 动态的电费价格是驱使消费者改变用电消费模式的有效手段,为此,提出基于增强学习的动态价格优化(RLODP)算法。RLODP算法结合电力服务商的利润和消费者的用电成本,对电网负载进行管理;利用增强学习算法,电力服务商自适应地决策零售价格,将动态价格问题转化为离散有限马尔可夫决策过程(MDP),再利用Q-学习算法解决该决策过程。实验结果表明,提出的RLODP算法减少了消费者的用电成本,实现了电网市场中电力供应与需求之间的平衡。 展开更多
关键词 智能电网 动态需求 电价 增强学习 离散有限马尔可夫决策过程
下载PDF
使用连续动作的近端策略优化算法求解有限产能批量问题
10
作者 章天吉 林文文 +2 位作者 张岳君 项薇 战韬阳 《机械设计与研究》 CSCD 北大核心 2024年第1期20-25,共6页
研究了有限产能批量问题,以多产品单机系统为研究对象,以最小化生产总成本(生产成本、库存成本、机器设置成本、缺货积压成本)为优化目标。通过将问题转化为马尔可夫决策过程,利用基于近端策略优化的深度强化学习算法进行求解。由于使... 研究了有限产能批量问题,以多产品单机系统为研究对象,以最小化生产总成本(生产成本、库存成本、机器设置成本、缺货积压成本)为优化目标。通过将问题转化为马尔可夫决策过程,利用基于近端策略优化的深度强化学习算法进行求解。由于使用离散动作空间的深度强化学习难以扩展到大型问题,为此本文采用在策略网络中添加映射函数的方法将连续动作表示的深度强化学习应用于求解此问题。实验表明,文中所设计的算法所需的训练时间更少,在实验结果上与直接用CPLEX求解的最优解接近,在求解速度上也更有优势。 展开更多
关键词 有限产能批量问题 深度强化学习 马尔可夫决策过程 连续动作空间 近端策略优化
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部