期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于随机方差减小方法的DDPG算法 被引量:2
1
作者 杨薛钰 陈建平 +2 位作者 傅启明 陆悠 吴宏杰 《计算机工程与应用》 CSCD 北大核心 2021年第19期104-111,共8页
针对深度确定性策略梯度算法(DDPG)收敛速度比较慢,训练不稳定,方差过大,样本应用效率低的问题,提出了一种基于随机方差减小梯度方法的深度确定性策略梯度算法(SVR-DDPG)。该算法通过利用随机方差减小梯度技术(SVRG)提出一种新的创新优... 针对深度确定性策略梯度算法(DDPG)收敛速度比较慢,训练不稳定,方差过大,样本应用效率低的问题,提出了一种基于随机方差减小梯度方法的深度确定性策略梯度算法(SVR-DDPG)。该算法通过利用随机方差减小梯度技术(SVRG)提出一种新的创新优化策略,将之运用到DDPG算法之中,在DDPG算法的参数更新过程中,加入了随机方差减小梯度技术,利用该方法的更新方式,使得估计的梯度方差有一个不断减小的上界,令方差不断缩小,从而在小的随机训练子集的基础上找到更加精确的梯度方向,以此来解决了由近似梯度估计误差引发的问题,加快了算法的收敛速度。将SVR-DDPG算法以及DDPG算法应用于Pendulum和Mountain Car问题,实验结果表明,SVR-DDPG算法具有比原算法更快的收敛速度,更好的稳定性,以此证明了算法的有效性。 展开更多
关键词 深度强化学习 深度Q学习算法(DQN) 深度确定性策略梯度算法(DDPG) 随机方差缩减梯度技术
下载PDF
基于多重指数移动平均评估的DDPG算法 被引量:1
2
作者 范晶晶 陈建平 +2 位作者 傅启明 陆悠 吴宏杰 《计算机工程与设计》 北大核心 2021年第11期3084-3090,共7页
针对深度确定性策略梯度算法中双网络结构的不稳定及单评论家评估不准确的问题,提出基于多重指数移动平均评估的DDPG算法。介绍EMA-Q网络和目标Q网络合作得出目标更新值,对多个评论家给出的Q值求平均,降低单评论家评估的不准确性。样本... 针对深度确定性策略梯度算法中双网络结构的不稳定及单评论家评估不准确的问题,提出基于多重指数移动平均评估的DDPG算法。介绍EMA-Q网络和目标Q网络合作得出目标更新值,对多个评论家给出的Q值求平均,降低单评论家评估的不准确性。样本池部分引入双重经验回放方法,采用两个样本池分别存储不同的经验,提高算法的收敛性能。将所提算法及原始DDPG算法分别实验于经典的Pendulum问题和Mountain Car问题中。实验结果表明,与传统的DDPG算法相比,所提算法准确性更好,稳定性更高,收敛速度明显提升。 展开更多
关键词 深度学习 强化学习 指数移动平均 平均评估 双重经验回放
下载PDF
自适应序列生成的建筑能耗预测 被引量:1
3
作者 王悦 陈建平 +2 位作者 傅启明 吴宏杰 陆悠 《计算机系统应用》 2021年第11期155-163,共9页
提出一种基于强化学习的生成对抗网络(Reinforcement learning-based Generative Adversarial Networks, ReGAN)能耗预测方法.该算法将强化学习与生成对抗网络相结合,将GAN (Generative Adversarial Nets)中的生成器以及判别器分别构建... 提出一种基于强化学习的生成对抗网络(Reinforcement learning-based Generative Adversarial Networks, ReGAN)能耗预测方法.该算法将强化学习与生成对抗网络相结合,将GAN (Generative Adversarial Nets)中的生成器以及判别器分别构建为强化学习中Agent (生成器)以及奖赏函数.在训练过程中,将当前的真实能耗序列作为Agent的输入状态,构建一组固定长度的生成序列,结合判别器及蒙特卡洛搜索方法进一步构建当前序列的奖赏函数,并以此作为真实样本序列后续第一个能耗值的奖赏.在此基础之上,构建关于奖赏的目标函数,并求解最优参数.最后使用所提算法对唐宁街综合大楼公开的建筑能耗数据进行预测试验,实验结果表明,所提算法比多层感知机、门控循环神经网络和卷积神经网络具有更高的预测精度. 展开更多
关键词 生成对抗网络 强化学习 建筑能耗预测 策略梯度 人工智能
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部