期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
马尔可夫决策问题的关键状态优先学习算法 被引量:1
1
作者 白尘 《中国管理信息化》 2016年第7期198-202,共5页
针对传统强化学习算法的维数灾难问题,首先提出了用于识别关键状态的"决策收益率"概念及其估算方法,然后借鉴学习范围扩展的思想,以经典Q-Learning学习算法为基础,提出了关键状态优先学习算法(Critical States Prioritized Le... 针对传统强化学习算法的维数灾难问题,首先提出了用于识别关键状态的"决策收益率"概念及其估算方法,然后借鉴学习范围扩展的思想,以经典Q-Learning学习算法为基础,提出了关键状态优先学习算法(Critical States Prioritized Learning,CSPL)。最后本文实现了机器人寻径实验,并比较了CSPL算法与Q-Learning算法的实验结果。 展开更多
关键词 马尔可夫决策 关键状态 决策收益率 关键状态优先学习算法
下载PDF
MOS VLSI时延分析算法的分析和改进
2
作者 陈松 章开和 唐璞山 《计算机辅助设计与图形学学报》 EI CSCD 1991年第2期1-10,共10页
时延分析是验证VLSI电路性能的一种重要方法,本文详细分析了MOS开关级时延分析的算法,并在此基础上提出了两种消除伪路径的算法:节点状态设置法和改进的节点状态设置法。文章比较了各种算法对若干MOS大规模数字电路的延时分析结果及运... 时延分析是验证VLSI电路性能的一种重要方法,本文详细分析了MOS开关级时延分析的算法,并在此基础上提出了两种消除伪路径的算法:节点状态设置法和改进的节点状态设置法。文章比较了各种算法对若干MOS大规模数字电路的延时分析结果及运行时间,证明了新提出的算法可以非常有效地消除伪路径,同时能快速而正确地找出电路的最长延迟路径。 展开更多
关键词 分析算法 MOS VLSI 节点状态 深度优先搜索 关键路径法 广度优先搜索 数字电路 无关性 电路模拟 运行时间
下载PDF
基于优先经验回放可迁移深度强化学习的高铁调度 被引量:1
3
作者 代学武 吴越 +2 位作者 石琦 崔东亮 俞胜平 《控制与决策》 EI CSCD 北大核心 2023年第8期2375-2388,共14页
高铁行车调度是一个复杂的多阶段序列决策问题,需要考虑列车、线路设备等条件,且决策空间随问题规模的增大呈指数增长.而深度强化学习(DQN)兼备强大的搜索和学习能力,为高铁调度提供了新的解决方案,但存在经验利用效率低、迁移能力差等... 高铁行车调度是一个复杂的多阶段序列决策问题,需要考虑列车、线路设备等条件,且决策空间随问题规模的增大呈指数增长.而深度强化学习(DQN)兼备强大的搜索和学习能力,为高铁调度提供了新的解决方案,但存在经验利用效率低、迁移能力差等问题.本文提出一种基于优先经验回放可迁移深度强化学习的高铁调度方法.将包含股道运用计划等约束的高铁调度问题构建为多阶段序列决策过程,为提高算法的迁移能力,提出一种新的支持源域和目标域共享的状态向量和动作空间.为提高经验的利用效率和算法的收敛速度,设计了一种融合优先经验回放的深度Q网络训练方法.以徐兰线小规模案例为源域问题的经验学习实验表明,所提算法的经验利用效率和算法收敛速度优于传统DQN算法,并可适当增大优先级指数和调节权重参数以改善其收敛性能.以京沪线繁忙路段的晚点案例为目标域问题,本文提出的在线决策算法相比于经典的混合整数规划算法,决策时间平均减少约75%,且在近77%的案例中,总晚点时间的性能损失在15%以内. 展开更多
关键词 高速铁路 调度算法 深度强化学习 状态向量 动作空间 优先经验回放
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部