基于随机方差减小方法的DDPG算法被引量：2

Deep Deterministic Policy Gradient Algorithm Based on Stochastic Variance Reduction Method

下载PDF

导出

摘要针对深度确定性策略梯度算法(DDPG)收敛速度比较慢,训练不稳定,方差过大,样本应用效率低的问题,提出了一种基于随机方差减小梯度方法的深度确定性策略梯度算法(SVR-DDPG)。该算法通过利用随机方差减小梯度技术(SVRG)提出一种新的创新优化策略,将之运用到DDPG算法之中,在DDPG算法的参数更新过程中,加入了随机方差减小梯度技术,利用该方法的更新方式,使得估计的梯度方差有一个不断减小的上界,令方差不断缩小,从而在小的随机训练子集的基础上找到更加精确的梯度方向,以此来解决了由近似梯度估计误差引发的问题,加快了算法的收敛速度。将SVR-DDPG算法以及DDPG算法应用于Pendulum和Mountain Car问题,实验结果表明,SVR-DDPG算法具有比原算法更快的收敛速度,更好的稳定性,以此证明了算法的有效性。 Aiming at the problem that the Deep Deterministic Policy Gradient(DDPG)algorithm has slow convergence speed,training instability,large variance and poor sample efficiency.This paper proposes a deep deterministic policy gradient algorithm by utilizing Stochastic Variance Reduced Gradient(SVRG)algorithm.By utilizing stochastic variance reduced techniques,it proposes an innovative optimization strategy,applying it to DDPG algorithm.In the parameter update process of the DDPG algorithm,by using the update mode of this method,the estimated gradient variance has a decreasing upper bound,so that the variance decreases continuously,so as to find a more accurate gradient direction on the basis of a small random training subset.This strategy solves the problem caused by the approximate gradient error,speeds up the convergence speed of the algorithm.Applying SVR-DDPG algorithm and DDPG algorithm to Pendulum and Mountain Car problems,experimental results show that the SVR-DDPG algorithm has a faster convergence rate and better stability than the original algorithm,which proves the effectiveness of the algorithm.

作者杨薛钰陈建平傅启明陆悠吴宏杰 YANG Xueyu;CHEN Jianping;FU Qiming;LU You;WU Hongjie(School of Electronic and Information Engineering,Suzhou University of Science and Technology,Suzhou,Jiangsu 215009,China;Jiangsu Province Key Laboratory of Intelligent Building Energy Efficiency,Suzhou University of Science and Technology,Suzhou,Jiangsu 215009,China;Suzhou Key Laboratory of Mobile Networking and Applied Technologies,Suzhou University of Science and Technology,Suzhou,Jiangsu 215009,China;Zhuhai Mizao Intelligent Technology Co.,Ltd.,Zhuhai,Guangdong 519000,China;Virtual Reality Key Laboratory of Intelligent Interaction and Application Technology of Suzhou,Suzhou University of Science and Technology,Suzhou,Jiangsu 215009,China)

机构地区苏州科技大学电子与信息工程学院苏州科技大学江苏省建筑智慧节能重点实验室苏州科技大学苏州市移动网络技术与应用重点实验室珠海米枣智能科技有限公司苏州科技大学苏州市虚拟现实智能交互与应用技术重点实验室

出处《计算机工程与应用》 CSCD 北大核心 2021年第19期104-111,共8页 Computer Engineering and Applications

基金国家自然科学基金(61876217,61876121,61772357,61750110519,61772355,61702055,61672371) 江苏省重点研发计划项目(BE2017663)。

关键词深度强化学习深度Q学习算法(DQN) 深度确定性策略梯度算法(DDPG) 随机方差缩减梯度技术 deep reinforcement learning Deep Q-Network(DQN) Deep Deterministic Policy Gradient(DDPG) stochastic variance reduced techniques

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1陈培,王超,王德奎,张东,房体盈.针对分布式深度学习训练的Kubernetes集群网络拓扑调度算法[J].信息技术与信息化,2019,0(9):109-113. 被引量：2
2孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：612
3陈建平,何超,刘全,吴宏杰,胡伏原,傅启明.增强型深度确定策略梯度算法[J].通信学报,2018,39(11):106-115. 被引量：7

二级参考文献30

1BENGIO Y, DELALLEAU O. On the expressive power of deep archi- tectures[ C ]//Proc of the 14th International Conference on Discovery Science. Berlin : Springer-Verlag, 2011 : 18 - 36.
2BENGIO Y. Leaming deep architectures for AI[ J]. Foundations and Trends in Machine Learning ,2009,2 ( 1 ) : 1-127.
3HINTON G,OSINDERO S,TEH Y. A fast learning algorithm for deep belief nets [ J ]. Neural Computation ,2006,18 (7) : 1527-1554.
4BENGIO Y, LAMBLIN P, POPOVICI D, et al. Greedy layer-wise training of deep networks [ C ]//Proc of the 12th Annual Conference on Neural Information Processing System. 2006:153-160.
5LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning ap- plied to document recognition[ J]. Proceedings of the iEEE, 1998, 86( 11 ) :2278-2324.
6VINCENT P, LAROCHELLE H, BENGIO Y, et al. Extracting and composing robust features with denoising autoencoders[ C ]//Proc of the 25th International Conference on Machine Learning. New York: ACM Press ,2008 : 1096-1103.
7VINCENT P, LAROCHELLE H, LAJOIE I, et aL Stacked denoising autoencoders:learning useftd representations in a deep network with a local denoising criterion [ J ]. Journal of Machine Learning Re- search ,2010,11 ( 12 ) :3371-3408.
8YU Dong, DENG Li. Deep convex net: a scalable architecture for speech pattern classification [ C]//Proc of the 12th Annual Confe-rence of International Speech Comunication Association. 2011 : 2285- 2288.
9POON H, DOMINGOS P. Sum-product networks:a new deep architec- ture[ C ]//Proc of IEEE Intemational Conference on Computer Vi- sion. 2011:689-690.
10BENGIO Y,LECUN Y. Scaling learning algorithms towards AI[ M]// BOTTOU L,CHAPELLE O, DeCOSTE D,et al. Large-Scale Kernel Machines. Cambridge: MIT Press ,2007:321-358.

共引文献618

1吴秀平,赵咏梅,凌静思.幼儿游戏深度学习行为的支持体系建构[J].教育科学论坛,2024(2):63-66.
2高嵩.深度学习在机场能见度预测中的应用[J].计算机产品与流通,2020,0(4):260-260. 被引量：2
3张永玲.以深度学习为核心的小学数学有效教学策略研究[J].理科爱好者（教育教学版）,2019,0(5):248-249. 被引量：2
4周帆,陈晓蝶,钟婷,吴劲.面向金融科技的深度学习技术综述[J].计算机科学,2022,49(S02):20-36. 被引量：3
5李灿强,夏志方,丁邡.基于人工智能技术的“数字政府”研究[J].中国经贸导刊,2019(5Z):138-139. 被引量：6
6彭婉,田良臣.信息技术支持下促进深度学习的教学研究——基于语文课程的研究[J].汉字文化,2022(15):159-161. 被引量：1
7刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：1
8杨灿.高职《深度学习》课程教学的实施[J].办公自动化,2021,26(16):37-38. 被引量：1
9苑方.基于深度学习的典型神经网络对比分析[J].中国科技纵横,2018,0(19):9-10.
10赵丹琪.人工智能生成物的著作权认定问题研究[J].楚天法治,2018(30):124-127.

同被引文献22

1王丹,智云强,贾宏杰,王伟亮,孟政吉,马莉.基于多能源站协调的区域电力-热力系统日前经济调度[J].电力系统自动化,2018,42(13):59-67. 被引量：22
2张斌,何明,陈希亮,吴春晓,刘斌,周波.改进DDPG算法在自动驾驶中的应用[J].计算机工程与应用,2019,55(10):264-270. 被引量：26
3江岳春,曾诚玉,郇嘉嘉,谭作云,余梦泽.基于改进NSGA-Ⅱ的综合能源多主体利益均衡优化调度[J].电力自动化设备,2020,40(7):17-23. 被引量：12
4Yang Yang,Li Juntao,Peng Lingling.Multi-robot path planning based on a deep reinforcement learning DQN algorithm[J].CAAI Transactions on Intelligence Technology,2020,5(3):177-183. 被引量：29
5田丰,贾燕冰,任海泉,白云,黄涛.考虑碳捕集系统的综合能源系统“源–荷”低碳经济调度[J].电网技术,2020,44(9):3346-3354. 被引量：88
6陈亮,梁宸,张景异,刘韵婷.Actor-Critic框架下一种基于改进DDPG的多智能体强化学习算法[J].控制与决策,2021,36(1):75-82. 被引量：22
7周友行,赵晗妘,刘汉江,李昱泽,肖雨琴.采用DDPG的双足机器人自学习步态规划方法[J].计算机工程与应用,2021,57(6):254-259. 被引量：7
8唐蕾,刘广钟.改进TD3算法在四旋翼无人机避障中的应用[J].计算机工程与应用,2021,57(11):254-259. 被引量：9
9张荣霞,武长旭,孙同超,赵增顺.深度强化学习及在路径规划中的研究进展[J].计算机工程与应用,2021,57(19):44-56. 被引量：22
10杨海柱,代庚辉,张鹏.基于ADMM-RGS算法的综合能源系统多主体协同优化运行策略研究[J].电力系统及其自动化学报,2022,34(6):25-33. 被引量：9

引证文献2

1赵国庆,徐君明,刘爱东.降低方差的深度确定性策略梯度算法[J].兵工自动化,2022,41(6):41-46. 被引量：1
2邱革非,何虹辉,刘铠铭,罗世杰,何超,沈赋.基于改进TD3算法的综合能源系统低碳经济调度[J].电力科学与工程,2023,39(10):52-62.

二级引证文献1

1张铁监.大数据与深度学习技术在驾驶员培训中研究与应用[J].长江信息通信,2023,36(7):135-137.

1陈国茗,于腾腾,刘新为.带自适应学习率的加速随机方差缩减梯度法[J].数值计算与计算机应用,2021,42(3):215-225. 被引量：1
2杨皓洁,吕建伟,徐一帆.考虑时间相关故障的多状态系统可靠性与任务成功性仿真评估方法[J].系统工程与电子技术,2021,43(8):2362-2372. 被引量：3
3凡健,高斌,夏春华.CT平扫与动脉期图像纹理分析在鉴别膀胱乳头状瘤和膀胱癌中的应用价值[J].CT理论与应用研究（中英文）,2020,29(6):742-750. 被引量：3
4时侠圣,杨涛,林志赟,王雪松.基于连续时间的二阶多智能体分布式资源分配算法[J].自动化学报,2021,47(8):2050-2060. 被引量：12
5张立卫.浅谈增广Lagrange方法中的二阶分析[J].运筹学学报,2021,25(3):1-14.

计算机工程与应用

2021年第19期

浏览历史

内容加载中请稍等...

基于随机方差减小方法的DDPG算法被引量：2

参考文献3

二级参考文献30

共引文献618

同被引文献22

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于随机方差减小方法的DDPG算法 被引量：2

参考文献3

二级参考文献30

共引文献618

同被引文献22

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于随机方差减小方法的DDPG算法被引量：2