期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于优先级经验回放的SAC强化学习算法 被引量:7
1
作者 刘庆强 刘鹏云 《吉林大学学报(信息科学版)》 CAS 2021年第2期192-199,共8页
针对SAC(Soft Actor Critic)算法中所有样本都以等概率随机采样,造成训练速度慢,训练过程不稳定的缺点,提出了PER(Prioritized Experience Replay)-SAC算法。通过将优先级经验采样引入SAC算法,使网络优先训练值估计函数误差较大和策略... 针对SAC(Soft Actor Critic)算法中所有样本都以等概率随机采样,造成训练速度慢,训练过程不稳定的缺点,提出了PER(Prioritized Experience Replay)-SAC算法。通过将优先级经验采样引入SAC算法,使网络优先训练值估计函数误差较大和策略表现不好的样本,从而提高了Agent训练过程的稳定性与收敛速度。实验结果表明,在多个环境及优化算法下,PER-SAC算法在训练速度及稳定性上相比于SAC算法均有明显提升。 展开更多
关键词 深度强化学习 Actor-Critic方法 最大熵 优先级经验采样
下载PDF
D2D辅助的边缘计算任务迁移与缓存替换研究
2
作者 李建鑫 薛锋 +1 位作者 王倩 陈思光 《小型微型计算机系统》 CSCD 北大核心 2024年第12期2985-2993,共9页
针对边缘网络存在的计算和带宽资源紧张导致的高时延问题,以及边缘缓存空间的有限性,本文结合设备到设备(Device-to-Device, D2D)通信技术、缓存替换策略,提出了一种D2D辅助的边缘计算任务迁移与缓存替换机制.具体地,规划了一个综合考... 针对边缘网络存在的计算和带宽资源紧张导致的高时延问题,以及边缘缓存空间的有限性,本文结合设备到设备(Device-to-Device, D2D)通信技术、缓存替换策略,提出了一种D2D辅助的边缘计算任务迁移与缓存替换机制.具体地,规划了一个综合考量边缘服务器计算和带宽资源分配、任务迁移决策和缓存决策的最小化任务时延优化问题.针对该混合整数非线性优化问题,为了进一步加快求解算法取得最优处理决策,有效满足时延敏感型设备需求,结合深度确定性策略梯度算法思想,提出了一个基于优先级经验采样的任务迁移与缓存替换算法.在深度确定性策略梯度算法的网络训练基础之上,与原算法对于经验池样本随机均匀采样不同,本算法采用了一种新的样本优先级方法,即基于样本时分误差的绝对值赋予样本优先级,从而使模型网络训练改变较大的样本被采样概率增大,加速网络训练,可较快的达到稳定收敛,获取最优处理决策.最后,仿真结果表明,与其它几种基准算法相比较,该算法在网络收敛、任务时延和缓存命中率等方面具有较大优势. 展开更多
关键词 边缘计算 D2D通信 任务迁移 缓存替换 优先级经验采样
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部