期刊文献+
共找到53篇文章
< 1 2 3 >
每页显示 20 50 100
混合动作空间下的多设备边缘计算卸载方法
1
作者 张冀 齐国梁 +1 位作者 朵春红 龚雯雯 《计算机工程与应用》 CSCD 北大核心 2024年第10期301-310,共10页
为降低多设备多边缘服务器场景中设备层级的总成本,并解决现有深度强化学习(deep reinforcement learning,DRL)只支持单一动作空间的算法局限性,提出基于混合决策的多智能体深度确定性策略梯度方法(hybrid-based multi-agent deep deter... 为降低多设备多边缘服务器场景中设备层级的总成本,并解决现有深度强化学习(deep reinforcement learning,DRL)只支持单一动作空间的算法局限性,提出基于混合决策的多智能体深度确定性策略梯度方法(hybrid-based multi-agent deep determination policy gradient,H-MADDPG)。首先考虑物联网设备/服务器计算能力随负载的动态变化、时变的无线传输信道增益、能量收集的未知性、任务量不确定性多种复杂的环境条件,建立MEC系统模型;其次以一段连续时隙内综合时延、能耗的总成本最小作为优化目标建立问题模型;最后将问题以马尔科夫决策过程(Markov decision procession,MDP)的形式交付给H-MADDPG,在价值网络的辅助下训练并行的两个策略网络,为设备输出离散的服务器选择及连续的任务卸载率。实验结果表明,H-MADDPG方法具有良好的收敛性和稳定性,从计算任务是否密集、延迟是否敏感等不同角度进行观察,H-MADDPG系统整体回报优于Local、OffLoad和DDPG,在计算密集型的任务需求下也能保持更大的系统吞吐量。 展开更多
关键词 物联网(IoT) 边缘计算卸载 多智能体深度确定性策略梯度(MADDPG) 混合动作空间
下载PDF
潜在空间中的策略搜索强化学习方法
2
作者 赵婷婷 王莹 +3 位作者 孙威 陈亚瑞 王嫄 杨巨成 《计算机科学与探索》 CSCD 北大核心 2024年第4期1032-1046,共15页
策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的... 策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的变化。为了解决上述问题,提出了一种基于潜在空间的策略搜索强化学习方法。将学习状态表示的思想拓展到动作表示上,即在动作表示的潜在空间中学习策略,再将动作表示映射到真实动作空间中。通过表示学习模型的引入,摒弃端到端的训练方式,将整个强化学习任务划分成大规模的表示模型部分和小规模的策略模型部分,使用无监督的学习方法来学习表示模型,使用策略搜索强化学习方法学习小规模的策略模型。大规模的表示模型能保留应有的泛化性和表达能力,小规模的策略模型有助于减轻策略学习的负担,从而在一定程度上缓解深度强化学习领域中样本利用率低、学习效率低和动作选择泛化性弱的问题。最后,在智能控制任务CarRacing和Cheetah中验证了引入潜在空间中的状态表示和动作表示的有效性。 展开更多
关键词 无模型强化学习 策略模型 状态表示 动作表示 连续动作空间 策略搜索强化学习方法
下载PDF
基于动作空间求解二维矩形Packing问题的高效算法 被引量:21
3
作者 何琨 黄文奇 金燕 《软件学报》 EI CSCD 北大核心 2012年第5期1037-1044,共8页
对于二维矩形Packing这一典型的NP难度问题,在黄文奇等人提出的拟人型穴度算法的基础上,通过定义动作空间来简化对不同放入动作的评价,使穴度的计算时间明显缩短,从而使算法能够快速地得到空间利用率较高的布局图案.实验测试了Hopper和T... 对于二维矩形Packing这一典型的NP难度问题,在黄文奇等人提出的拟人型穴度算法的基础上,通过定义动作空间来简化对不同放入动作的评价,使穴度的计算时间明显缩短,从而使算法能够快速地得到空间利用率较高的布局图案.实验测试了Hopper和Turton提出的21个著名的二维矩形Packing问题的实例.改进的算法对其中的每一个实例都得到了空间利用率为100%的最优布局,且在普通PC机上的平均计算时间未超过7分钟.实验结果表明,基于动作空间对拟人型穴度算法所进行的改进是明显而有效的. 展开更多
关键词 NP难度 矩形Packing 拟人 动作空间 穴度
下载PDF
基于动作空间的三维装箱问题的确定性高效率求解算法 被引量:19
4
作者 何琨 黄文奇 《计算机学报》 EI CSCD 北大核心 2014年第8期1786-1793,共8页
三维装箱问题要求将有限个三维矩形物体尽可能多地装入到一个三维矩形箱子中,使得箱子的填充率即体积利用率最大.在求解三维装箱问题的穴度算法的基础之上,进一步做了以下改进:(1)将当前剩余空间中可能放入的每个体积最大的三维矩形虚... 三维装箱问题要求将有限个三维矩形物体尽可能多地装入到一个三维矩形箱子中,使得箱子的填充率即体积利用率最大.在求解三维装箱问题的穴度算法的基础之上,进一步做了以下改进:(1)将当前剩余空间中可能放入的每个体积最大的三维矩形虚拟物体所对应的空间定义为动作空间,在动作空间内放入物体并使穴度的定义体现放入物体与动作空间的吻合程度;(2)在物体放入位置的选择上直接体现"金角银边草肚皮"的思想,每一步只选择最靠近箱子边缘的一个动作空间来装载物体;(3)结合捆绑策略,将形状大小相同的物体捆绑为一个较大的矩形块进行放入,对捆绑块形状大小的选择为在不超出动作空间的前提下尽量用物体填满该空间的两至三个维度.实验结果表明,改进后的穴度算法在付出很少的开销代价的情况下显著地提高了箱子的填充率. 展开更多
关键词 三维布局 装箱 启发式 动作空间 穴度
下载PDF
动作空间带平衡约束圆形Packing问题的拟物求解算法 被引量:7
5
作者 何琨 杨辰凯 +1 位作者 黄梦龙 黄文奇 《软件学报》 EI CSCD 北大核心 2016年第9期2218-2229,共12页
对于一个以卫星舱内设备布局为背景的具有NP难度的全局优化问题——带平衡约束的圆形Packing问题,提出了基于动作空间的拟物求解算法.在拟物下降遇到局部极小点的陷阱时,如何找到当前格局下的最空闲空间以使搜索过程跳到更有前景的区域... 对于一个以卫星舱内设备布局为背景的具有NP难度的全局优化问题——带平衡约束的圆形Packing问题,提出了基于动作空间的拟物求解算法.在拟物下降遇到局部极小点的陷阱时,如何找到当前格局下的最空闲空间以使搜索过程跳到更有前景的区域去是设计跳坑策略的一个关键难点.借鉴求解矩形Packing问题中动作空间的概念,通过化"圆"为"方",将不规则的空闲空间近似为一系列规则的矩形空间,从而有效地解决了此难点.另外,将拟物法与提前中止、粗精调和自适应步长这3个拟人辅助策略相结合,以提高势能下降的效率.对3组共13个代表性算例的计算结果及与国内外代表性算法的比较表明,所提格局的外包络圆半径多为最小或次小,且在部分算例上找到了有更小外包络圆半径的格局,总体计算结果较好,且静不平衡量的精度较高. 展开更多
关键词 NP难度 圆形Packing 拟物 动作空间 平衡约束
下载PDF
一种用于连续动作空间的最小二乘行动者-评论家方法 被引量:9
6
作者 朱斐 刘全 +1 位作者 傅启明 伏玉琛 《计算机研究与发展》 EI CSCD 北大核心 2014年第3期548-558,共11页
解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信... 解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信息,算法效果会变差甚至算法失效.针对这类问题,提出了一种最小二乘行动者-评论家方法(least square actor-critic algorithm,LSAC),使用函数逼近器近似表示值函数及策略,利用最小二乘法在线动态求解近似值函数参数及近似策略参数,以近似值函数作为评论家指导近似策略参数的求解.将LSAC算法用于解决经典的具有连续动作空间的小车平衡杆问题和mountain car问题,并与Cacla(continuous actor-critic learning automaton)算法和eNAC(episodic natural actor-critic)算法进行比较.结果表明,LSAC算法能有效地解决连续动作空间问题,并具有较优的执行性能. 展开更多
关键词 强化学习 行动者-评论家算法 连续动作空间 最小二乘法 小车平衡杆问题 MOUNTAIN car问题
下载PDF
一类连续状态与动作空间下的加权Q学习 被引量:1
7
作者 程玉虎 易建强 +1 位作者 王雪松 赵冬斌 《电机与控制学报》 EI CSCD 北大核心 2005年第6期570-574,共5页
针对连续状态与动作空间下的控制问题,提出了一类连续状态与动作空间下的加权Q学习算法,应用改进的增长神经气算法动态构建径向基网络的隐含层,实现状态空间的自适应构建。在基于径向基网络实现的标准Q学习基础上,利用加权Q学习算法用... 针对连续状态与动作空间下的控制问题,提出了一类连续状态与动作空间下的加权Q学习算法,应用改进的增长神经气算法动态构建径向基网络的隐含层,实现状态空间的自适应构建。在基于径向基网络实现的标准Q学习基础上,利用加权Q学习算法用以解决具有连续动作输出的控制问题。仿真实例验证了所提算法的有效性。 展开更多
关键词 连续状态空间 连续动作空间 加权Q学习 神经气算法 径向基网络
下载PDF
基于离散变量动作空间的多移动机器人对抗策略系统 被引量:1
8
作者 薛方正 方帅 徐心和 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2004年第12期1138-1141,共4页
使用降低决策粒度和精度的方法来换取策略系统的智能,提出了离散变量动作空间的概念,简化了多移动机器人对抗决策问题·离散变量动作空间能够将复杂的决策问题分解为多个独立的子问题,且每个子问题都有相应的理论来解决·建立... 使用降低决策粒度和精度的方法来换取策略系统的智能,提出了离散变量动作空间的概念,简化了多移动机器人对抗决策问题·离散变量动作空间能够将复杂的决策问题分解为多个独立的子问题,且每个子问题都有相应的理论来解决·建立了基于这种思想和方法的集控式足球机器人决策系统·该系统在2002年机器人足球世界杯比赛中获得了第3名· 展开更多
关键词 策略系统 足球机器人 智能机器人 多机器人对抗 离散变量动作空间
下载PDF
悖论与动作:讨论现实与图解弥合机制的教学实验
9
作者 郦文曦 范舟 《华中建筑》 2023年第6期158-161,共4页
在自然建造的语境下,面对真实的场地,作者提出以分、穿、盖三类“空间动作”来回应人地矛盾。该文分析了以“悖论与动作”为核心的教学思想在中国美术学院建筑艺术学院进行为期八周的实验教学,通过对中国美术学院象山校区的十处场所的... 在自然建造的语境下,面对真实的场地,作者提出以分、穿、盖三类“空间动作”来回应人地矛盾。该文分析了以“悖论与动作”为核心的教学思想在中国美术学院建筑艺术学院进行为期八周的实验教学,通过对中国美术学院象山校区的十处场所的设计来反思纸面建筑操作对于感受与理性之间的断裂性以及其弥合方式。 展开更多
关键词 悖论 空间动作 穿
下载PDF
二维Packing问题拟人型算法中的动作空间更新过程求解 被引量:1
10
作者 胡文蓓 饶昊 《软件导刊》 2017年第8期19-20,24,共3页
二维矩形Packing问题备受关注。对于这一问题,有学者提出了拟人型穴度算法。该类启发式算法极大提高了解决二维Packing问题的效率,其引用了动作空间的概念。此类算法中的基本算法B0旨在通过制定的指标选出每一次放置的矩形块及其矩形块... 二维矩形Packing问题备受关注。对于这一问题,有学者提出了拟人型穴度算法。该类启发式算法极大提高了解决二维Packing问题的效率,其引用了动作空间的概念。此类算法中的基本算法B0旨在通过制定的指标选出每一次放置的矩形块及其矩形块放置的位置,待选出后完成矩形块放置动作,再进行动作空间的更新操作,以此类推,只至最终格局。基于此,详细解释了算法中动作空间的更新过程。 展开更多
关键词 PACKING问题 NP难度 动作空间更新 拟人型算法
下载PDF
运用强化学习增强元宇宙环境中的导航和空间的感知
11
作者 刘恋 《中文科技期刊数据库(全文版)社会科学》 2023年第7期112-115,共4页
为了增强元宇宙环境中的导航和空间感知能力,本文通过引入强化学习方法,对导航和空间感知问题进行研究。鉴于元宇宙环境的复杂性和挑战,本文介绍了强化学习的基础知识,并概述了其在导航和空间感知中的应用情况。通过状态表示和特征提取... 为了增强元宇宙环境中的导航和空间感知能力,本文通过引入强化学习方法,对导航和空间感知问题进行研究。鉴于元宇宙环境的复杂性和挑战,本文介绍了强化学习的基础知识,并概述了其在导航和空间感知中的应用情况。通过状态表示和特征提取、动作空间建模和动作选择、奖励函数设计和优化以及强化学习算法选择和参数调优等方法,提出了一种增强元宇宙导航和空间感知的方法。研究结果表明,采用强化学习方法能够显著提升元宇宙中的导航和空间感知性能。因此,强化学习在元宇宙环境中的导航和空间感知方面具有重要的应用前景。 展开更多
关键词 元宇宙 导航 空间感知 强化学习 状态表示 动作空间建模
下载PDF
基于混合强化学习的主动配电网故障恢复方法
12
作者 徐岩 陈嘉岳 马天祥 《电力系统及其自动化学报》 CSCD 北大核心 2024年第4期50-58,共9页
针对高比例新能源接入的配电网故障恢复问题,提出一种基于混合强化学习的主动配电网故障恢复方法。首先,以故障损失最小为恢复目标、配电网安全运行要求为约束条件,构造主动配电网的故障恢复模型;其次,建立用于故障恢复的强化学习环境,... 针对高比例新能源接入的配电网故障恢复问题,提出一种基于混合强化学习的主动配电网故障恢复方法。首先,以故障损失最小为恢复目标、配电网安全运行要求为约束条件,构造主动配电网的故障恢复模型;其次,建立用于故障恢复的强化学习环境,根据状态空间和动作空间特点,提出一种混合强化学习方法,该方法使用竞争架构双深度Q网络算法处理离散动作空间,进行开关动作;然后,使用深度确定性策略梯度算法处理连续动作空间,调节电源出力;最后,通过IEEE33节点系统仿真实验验证所提方法的可行性和优越性。 展开更多
关键词 主动配电网 故障恢复 混合强化学习 状态空间 动作空间
下载PDF
基于贝叶斯网络强化学习的复杂装备维修排故策略生成
13
作者 刘宝鼎 于劲松 +2 位作者 韩丹阳 唐荻音 李鑫 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第4期1354-1364,共11页
为解决传统启发式维修排故决策方法决策时间长、生成策略总成本高的问题,提出一种基于贝叶斯网络(BN)结合强化学习(RL)进行复杂装备维修排故策略生成方法。为更好地利用复杂装备模型知识,使用BN进行维修排故知识表述,并且为更加贴近复... 为解决传统启发式维修排故决策方法决策时间长、生成策略总成本高的问题,提出一种基于贝叶斯网络(BN)结合强化学习(RL)进行复杂装备维修排故策略生成方法。为更好地利用复杂装备模型知识,使用BN进行维修排故知识表述,并且为更加贴近复杂装备实际情况,依据故障模式、影响和危害性分析(FMECA)的故障概率,经合理转化后作为BN的先验概率;为使用RL的决策过程生成维修排故策略,提出一种维修排故决策问题转化为RL问题的方法;为更好地求解转化得到的强化学习问题,引入观测-修复动作对(O-A)以减小问题规模,并设置动作掩码处理动态动作空间。仿真结果表明:在统一的性能指标下,所提BN-RL方法较传统方法获得更高的指标值,证明该方法的有效性和优越性。 展开更多
关键词 强化学习 贝叶斯网络 维修排故策略生成 复杂装备 动态动作空间
下载PDF
基于核方法的连续动作Actor-Critic学习 被引量:8
14
作者 陈兴国 高阳 +1 位作者 范顺国 俞亚君 《模式识别与人工智能》 EI CSCD 北大核心 2014年第2期103-110,共8页
强化学习算法通常要处理连续状态及连续动作空间问题以实现精确控制.就此文中结合Actor-Critic方法在处理连续动作空间的优点及核方法在处理连续状态空间的优势,提出一种基于核方法的连续动作Actor-Critic学习算法(KCACL).该算法中,Acto... 强化学习算法通常要处理连续状态及连续动作空间问题以实现精确控制.就此文中结合Actor-Critic方法在处理连续动作空间的优点及核方法在处理连续状态空间的优势,提出一种基于核方法的连续动作Actor-Critic学习算法(KCACL).该算法中,Actor根据奖赏不作为原则更新动作概率,Critic采用基于核方法的在线选择时间差分算法学习状态值函数.对比实验验证该算法的有效性. 展开更多
关键词 强化学习 连续动作空间 函数估计 核方法
下载PDF
应用在线随机森林投票的动作识别 被引量:5
15
作者 王世刚 鲁奉军 +2 位作者 赵文婷 赵晓琳 卢洋 《光学精密工程》 EI CAS CSCD 北大核心 2016年第8期2010-2017,共8页
提出了基于在线随机森林投票识别人物动作类别的方法。建立了在线随机森林投票模型。通过在线训练和在线检测两部分进行了算法研究,提高了检测人物动作类别的准确率。基于人物动作在时间和空间上有重要信息,该方法首先通过提取图像立体... 提出了基于在线随机森林投票识别人物动作类别的方法。建立了在线随机森林投票模型。通过在线训练和在线检测两部分进行了算法研究,提高了检测人物动作类别的准确率。基于人物动作在时间和空间上有重要信息,该方法首先通过提取图像立体块的lab色彩空间值、一阶差分、二阶差分以及大位移光流特征值在线训练随机森林;训练结束后,形成强分类器,利用分类器对检测图像进行投票,生成动作空间图;最后,在动作空间图中寻求最大值,判断检测图像的动作类别。验证结果表明在低分辨的视频图像中,本方法能够确定人物的动作类别,对Weizmann数据库和KTH数据库的识别率分别为97.3%和89.5%,对UCF sports数据库的识别率为79.2%,动作识别准确率有所提高。该方法增加了光流能量场特征表述,将原始投票理论拓展至三维空间,并且采用向下采样的方式更新结点信息,能够判断人物动作类别,为智能视频技术提供了有效的补充信息。 展开更多
关键词 动作识别 随机森林投票 大位移光流 动作空间 智能视频
下载PDF
基于融合离散动作的双延迟深度确定性策略梯度算法的自动驾驶端到端行为决策方法 被引量:2
16
作者 杨璐 王一权 +2 位作者 刘佳琦 段玉林 张荣辉 《交通信息与安全》 CSCD 北大核心 2022年第1期144-152,共9页
针对基于强化学习的车辆驾驶行为决策方法存在的学习效率低、动作变化不平滑等问题,研究了1种融合不同动作空间网络的端到端自动驾驶决策方法,即融合离散动作的双延迟深度确定性策略梯度算法(TD3WD)。在基础双延迟深度确定性策略梯度算... 针对基于强化学习的车辆驾驶行为决策方法存在的学习效率低、动作变化不平滑等问题,研究了1种融合不同动作空间网络的端到端自动驾驶决策方法,即融合离散动作的双延迟深度确定性策略梯度算法(TD3WD)。在基础双延迟深度确定性策略梯度算法(TD3)的网络模型中加入1个输出离散动作的附加Q网络辅助进行网络探索训练,将TD3网络与附加Q网络的输出动作进行加权融合,利用融合后动作与环境进行交互,对环境进行充分探索,以提高对环境的探索效率;更新Critic网络时,将附加网络输出作为噪声融合到目标动作中,鼓励智能体探索环境,使动作值预估更加准确;利用预训练的网络获取图像特征信息代替图像作为状态输入,降低训练过程中的计算成本。利用Carla仿真平台模拟自动驾驶场景对所提方法进行验证,结果表明:在训练场景中,所提方法的学习效率更高,比TD3和深度确定性策略梯度算法(DDPG)等基础算法收敛速度提升约30%;在测试场景中,所提出的算法的收敛后性能更好,平均压线率和转向盘转角变化分别降低74.4%和56.4%。 展开更多
关键词 自动驾驶 端到端决策 深度强化学习 动作空间
下载PDF
智能垃圾分类拾捡机器人抓取角度自动控制研究
17
作者 李绘英 《太原学院学报(自然科学版)》 2024年第3期34-40,共7页
角度偏离程度过大会导致机器人抓取行为出现偏差,从而使机器人错误抓取拾捡目标。为解决上述问题,针对智能垃圾分类拾捡机器人抓取角度自动控制展开研究。根据模糊pid控制原则,完成对机器人抓取参数的整定处理,再定义抓取行为动作空间,... 角度偏离程度过大会导致机器人抓取行为出现偏差,从而使机器人错误抓取拾捡目标。为解决上述问题,针对智能垃圾分类拾捡机器人抓取角度自动控制展开研究。根据模糊pid控制原则,完成对机器人抓取参数的整定处理,再定义抓取行为动作空间,通过建模抓取过程的方式,确定抓取角度的取值范围,并在此基础上,推导具体的抓取角度控制条件,实现智能垃圾分类机器人抓取角度自动控制。实验结果表明,上述方法的应用,可将抓取角度控制在0°~25°的数值范围之内,不会因角度偏离程度过大而造成机器人偏差抓取的问题,能够保障机器人对拾捡目标的精准抓取。 展开更多
关键词 模糊PID 垃圾分类拾捡机器人 抓取角度 参数整定 行为动作空间 过程建模
下载PDF
基于DDQN改进方法的“斗地主”策略
18
作者 孔燕 吴晓聪 +1 位作者 芮烨锋 史鸿远 《信息技术》 2024年第5期66-72,80,共8页
基于当前一些已有方法在牌类博弈中训练时间长、动作空间大、胜率低等问题,提出了针对DDQN算法网络架构、编码方式的改进方法。采用二进制对手牌特征进行编码,采用手牌拆分的方法把神经网络分为主牌神经网络和副牌神经网络,并且增加GRU... 基于当前一些已有方法在牌类博弈中训练时间长、动作空间大、胜率低等问题,提出了针对DDQN算法网络架构、编码方式的改进方法。采用二进制对手牌特征进行编码,采用手牌拆分的方法把神经网络分为主牌神经网络和副牌神经网络,并且增加GRU神经网络处理序列动作。经实验表明,该算法训练时间比传统DQN算法缩短了13%,在“地主”和“农民”位置上的平均胜率为70%和75%,高于DQN算法的28%和60%,证明了改进算法在上述部分指标方面的优势。 展开更多
关键词 深度强化学习 Double deep Q-learning 计算机博弈 Gate Recurrent Unit神经网络 大规模离散动作空间
下载PDF
连续空间的递归最小二乘行动者—评论家算法 被引量:2
19
作者 朱文文 金玉净 +1 位作者 伏玉琛 宋绪文 《计算机应用研究》 CSCD 北大核心 2014年第7期1994-1997,2000,共5页
传统的行动者—评论家(actor-critic,AC)算法用在连续空间时,数据利用率低、收敛慢,而现实世界中采样往往需要昂贵的代价,因此提出了一种新的连续空间递归最小二乘AC算法,能够充分利用数据,提高学习预测能力。该方法用高斯径向基函数对... 传统的行动者—评论家(actor-critic,AC)算法用在连续空间时,数据利用率低、收敛慢,而现实世界中采样往往需要昂贵的代价,因此提出了一种新的连续空间递归最小二乘AC算法,能够充分利用数据,提高学习预测能力。该方法用高斯径向基函数对连续的状态空间进行编码,评论家部分改用带资格迹的递归最小二乘时间差分方法,而行动者部分用策略梯度方法,在连续动作空间中进行策略搜索。Mountain Car问题的仿真结果表明该算法具有较好的收敛结果。 展开更多
关键词 强化学习 行动者—评论家方法 连续状态动作空间 递归最小二乘 策略梯度 高斯径向基函数
下载PDF
利用空间优化的增强学习Sarsa改进预取算法
20
作者 梁媛 袁景凌 陈旻骋 《计算机科学》 CSCD 北大核心 2019年第3期327-331,共5页
数据中心是高性能计算机的集群中心,CPU集群运行繁忙,不规则的数据结构和算法频繁使用,使得大多数基于时空局部性的预取技术不再适用。文中引用语义局部性的概念,使用增强学习Sarsa算法来近似语义位置,预测不规则数据结构和算法未来的... 数据中心是高性能计算机的集群中心,CPU集群运行繁忙,不规则的数据结构和算法频繁使用,使得大多数基于时空局部性的预取技术不再适用。文中引用语义局部性的概念,使用增强学习Sarsa算法来近似语义位置,预测不规则数据结构和算法未来的内存访问。由于状态空间和动态空间过大,采用Deep Q-learning方法优化状态-动作空间,将新状态与旧状态拟合,相似则采取相似的做法,从而提高泛化能力。在标准数据集SPECCPU 2006上的实验证明,所提方法的泛化能力强,能够有效提高Cache的命中率。 展开更多
关键词 预取技术 语义局部性 Sarsa DEEP Q-LEARNING 状态-动作空间优化
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部