采用双经验回放池的噪声流双延迟深度确定性策略梯度算法

Noisy twin delayed deep deterministic policy gradient algorithm using double experience replay buffers

下载PDF

导出

摘要为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快。 To improve the network’s exploration ability and convergence speed of twin delayed deep deterministic policy gradient(TD3)algorithm,this paper proposes a noise TD3 algorithm using double experience replay buffers based on multi-step prioritized and resampling preferred mechanism.Firstly,noise flow is added to each layer of the policy network to increase the randomness of the parameters.Then a multi-step prioritized experience replay buffer is built,where multiple continuous samples are stored as one basic unit.During network training,the effective approximation of the value function is realized by multi-step clipped double Q-processing.Meanwhile a resampling preferred experience replay buffer is set to store the samples with greater learning value.Double experience replay buffers can make up for the lack of sample’s diversity.Simulation experiments are carried out in Walker2d-v2 scenario of OpenAI Gym software platform.The results show that the average reward of the proposed algorithm is obviously higher than that of other algorithms,and the convergence speed of the network is also greatly improved.

作者王垚儒李俊 Wang Yaoru;Li Jun(College of Computer Science and Technology,Wuhan University of Science and Technology,Wuhan 430065,China;Hubei Province Key Laboratory of Intelligent Information Processing and Real-time Industrial System,Wuhan University of Science and Technology,Wuhan 430065,China)

机构地区武汉科技大学计算机科学与技术学院武汉科技大学智能信息处理与实时工业系统湖北省重点实验室

出处《武汉科技大学学报》 CAS 北大核心 2020年第2期147-154,共8页 Journal of Wuhan University of Science and Technology

基金国家自然科学基金资助项目(61572381) 武汉科技大学智能信息处理与实时工业系统湖北省重点实验室基金资助项目(znxx2018QN06).

关键词深度确定性策略梯度 TD3算法深度强化学习噪声流多步截断双Q学习双经验回放池 deep deterministic policy gradient TD3 algorithm deep reinforcement learning noise flow multi-step clipped double Q-learning double experience replay buffers

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：446
2Ethan Duryea,Michael Ganger,Wei Hu.Exploring Deep Reinforcement Learning with Multi Q-Learning[J].Intelligent Control and Automation,2016,7(4):129-144. 被引量：25
3柯丰恺,周唯倜,赵大兴.优化深度确定性策略梯度算法[J].计算机工程与应用,2019,55(7):151-156. 被引量：10

二级参考文献9

1魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
2高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
3王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：26
4孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：602
5余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：599
6傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014,37(3):677-686. 被引量：25
7黎亚雄,张坚强,潘登,胡惮.基于RNN-RBM语言模型的语音识别研究[J].计算机研究与发展,2014,51(9):1936-1944. 被引量：27
8杨钊,陶大鹏,张树业,金连文.大数据下的基于深度神经网的相似汉字识别[J].通信学报,2014,35(9):184-189. 被引量：28
9刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：446

共引文献471

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：2
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：37
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：39
5周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：5
6李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1
7王雪鉴,文永明,石晓荣,张宁宁,刘洁玺.多智能体多耦合任务混合式智能决策架构设计[J].航空学报,2023,44(S02):418-425.
8刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：1
9罗国攀,张国良,徐佳宝.基于SPE-ICM的移动机器人内在动机避障规划[J].电子测量与仪器学报,2023,37(2):21-27. 被引量：3
10蒋方庆,陈自力,高喜俊,王春峰,贺道坤.基于改进TD3算法的无人机决策研究[J].信息化研究,2023,49(3):36-42.

1Eliza Strickland.玩捉迷藏的人工智能玩偶[J].科技纵览,2019,0(11):10-11.
2刘胜祥,林群煦,杨智才,吴月玉,翟玉江.基于深度确定性策略梯度算法的双轮机器人平衡控制研究[J].机械工程师,2020,0(3):142-144. 被引量：2
3周书华(编译).神经网络探索物理问题[J].物理,2020,49(3):184-184.
4常宇,付芳,张志才.无线网络中基于深度强化学习的资源分配研究[J].测试技术学报,2020,34(2):152-158. 被引量：2
5韩晨,牛英滔,夏志,逄天洋.线性扫频干扰检测算法及抗干扰方法研究[J].计算机应用研究,2020,37(1):267-270. 被引量：7
6许杨子,强文,刘俊,孙鸿雁,胡成刚.基于改进深度强化学习算法的电力市场监测模型研究[J].国外电子测量技术,2020,39(1):82-87. 被引量：5
7梁星星,冯旸赫,黄金才,王琦,马扬,刘忠.基于自回归预测模型的深度注意力强化学习方法[J].软件学报,2020,31(4):948-966. 被引量：17
8康云鹏,付芳,张志才.车联网中基于SVC视频传输业务的资源分配研究[J].测试技术学报,2020,34(2):173-178. 被引量：1
9黄晓净,王志峰,韩丹丹,杜志兴,庞建民.健康人群口服二甲双胍预防肿瘤机制探讨[J].中国误诊学杂志,2019,0(8):381-384. 被引量：2
10安政帅.基于动态规划的非均匀杂波环境中的复似然比检测前跟踪算法[J].火控雷达技术,2020,49(1):49-55.

武汉科技大学学报

2020年第2期

浏览历史

内容加载中请稍等...

采用双经验回放池的噪声流双延迟深度确定性策略梯度算法

参考文献3

二级参考文献9

共引文献471

相关作者

相关机构

相关主题

浏览历史