期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于随机方差减小方法的DDPG算法 被引量:3
1
作者 杨薛钰 陈建平 +2 位作者 傅启明 陆悠 吴宏杰 《计算机工程与应用》 CSCD 北大核心 2021年第19期104-111,共8页
针对深度确定性策略梯度算法(DDPG)收敛速度比较慢,训练不稳定,方差过大,样本应用效率低的问题,提出了一种基于随机方差减小梯度方法的深度确定性策略梯度算法(SVR-DDPG)。该算法通过利用随机方差减小梯度技术(SVRG)提出一种新的创新优... 针对深度确定性策略梯度算法(DDPG)收敛速度比较慢,训练不稳定,方差过大,样本应用效率低的问题,提出了一种基于随机方差减小梯度方法的深度确定性策略梯度算法(SVR-DDPG)。该算法通过利用随机方差减小梯度技术(SVRG)提出一种新的创新优化策略,将之运用到DDPG算法之中,在DDPG算法的参数更新过程中,加入了随机方差减小梯度技术,利用该方法的更新方式,使得估计的梯度方差有一个不断减小的上界,令方差不断缩小,从而在小的随机训练子集的基础上找到更加精确的梯度方向,以此来解决了由近似梯度估计误差引发的问题,加快了算法的收敛速度。将SVR-DDPG算法以及DDPG算法应用于Pendulum和Mountain Car问题,实验结果表明,SVR-DDPG算法具有比原算法更快的收敛速度,更好的稳定性,以此证明了算法的有效性。 展开更多
关键词 深度强化学习 深度Q学习算法(DQN) 深度确定性策略梯度算法(DDPG) 随机方差缩减梯度技术
下载PDF
基于Q-Learning算法的电气故障检测模型
2
作者 杨薛钰 《电脑知识与技术》 2020年第5期258-260,共3页
针对电气故障检测过程中,时效性和准确性低的特点,提出了一种基于Q-Learning算法的电气故障检测模型(QLEFDM)。该模型将Q-Learning算法运用到电气故障检测技术当中,可以对熔断器故障进行有效的检测。该模型可以有效地判断熔断器的故障,... 针对电气故障检测过程中,时效性和准确性低的特点,提出了一种基于Q-Learning算法的电气故障检测模型(QLEFDM)。该模型将Q-Learning算法运用到电气故障检测技术当中,可以对熔断器故障进行有效的检测。该模型可以有效地判断熔断器的故障,提高故障检测的时效性和准确性。经过实验证明了该模型的有效性。 展开更多
关键词 熔断器 故障诊断 强化学习 Q-Learning算法
下载PDF
基于Sarsa算法的交通信号灯控制方法 被引量:5
3
作者 吴少波 杨薛钰 《信息与电脑》 2021年第6期49-51,共3页
针对现有交通信号灯控制技术无法针对复杂路况进行自适应调整,导致十字路口道路通行能力不足的问题,笔者提出一种基于强化学习sarsa算法的交通信号灯控制方法,并结合卷积神经网络对相关参数进行设置。实验结果表明,该方法能够针对实时... 针对现有交通信号灯控制技术无法针对复杂路况进行自适应调整,导致十字路口道路通行能力不足的问题,笔者提出一种基于强化学习sarsa算法的交通信号灯控制方法,并结合卷积神经网络对相关参数进行设置。实验结果表明,该方法能够针对实时路况自动调整信号灯控制策略,有效疏导交通流量。 展开更多
关键词 强化学习 交通信号灯控制 卷积神经网络 马尔可夫决策过程
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部