基于离线模型预训练学习的改进DDPG算法

Improved DDPG algorithm based on offline model pre-training learning

下载PDF

导出

摘要针对DDPG(deep deterministic policy gradient)在线训练过程中陷入局部极小值及产生大量试错动作和无效数据的问题,提出一种基于离线模型预训练学习的改进DDPG算法。利用已有数据离线训练对象状态模型和价值奖励模型,提前对DDPG中动作网络和价值网络进行预训练学习,减少DDPG前期工作量并提升在线学习的品质。加入DDQN(double deep Q-Learning network)结构解决Q值估计偏高问题。仿真结果中获取平均累积奖励值提升了9.15%,表明改进算法有效提高了DDPG算法效果。 In view of the problems that DDPG(deep deterministic policy gradient)falls into local minimum in the process of online training and a lot of wrong and invalid data generated during the initial training of DDPG network,an improved DDPG algorithm based on off-line model pre-training learning was proposed.The existing data were used to train the object state model and value reward model offline and the action network and value network were pre-trained in DDPG in advance,reducing the amount of work in the early stage of online learning and improving the quality of online learning.Introducing DDQN(double deep Q-Learning network)structure solved the high estimation of Q value.Simulation results show that the average cumulative reward value is increased by 9.15%,which shows that the improved algorithm can effectively improve effects of DDPG algorithm.

作者张茜王洪格倪亮 ZHANG Qian;WANG Hong-ge;NI Liang(School of Computer Science,Zhongyuan University of Technology,Zhengzhou 450007,China)

机构地区中原工学院计算机学院

出处《计算机工程与设计》北大核心 2022年第5期1451-1458,共8页 Computer Engineering and Design

基金河南省科技攻关计划基金项目(222102210281、182102210130) 国家留学基金项目(201908410281) 河南省高校重点科研基金项目(21A520053)。

关键词深度确定性策略梯度离线模型预训练学习深度双Q网络累积奖励 DDPG offline model pre-training learning DDQN cumulative rewards

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献9

1王赞,闫明,刘爽,陈俊洁,张栋迪,吴卓,陈翔.深度神经网络测试研究综述[J].软件学报,2020,31(5):1255-1275. 被引量：36
2王毅然,经小川,田涛,孙运乾,从帅军.基于强化学习的多Agent路径规划方法研究[J].计算机应用与软件,2019,36(8):165-171. 被引量：25
3张智,翁宗南,苏丽,光正慧.室内机器人避碰路径规划[J].小型微型计算机系统,2019,40(10):2077-2081. 被引量：16
4陈松,章晓芳,章宗长,刘全,吴金金,闫岩.基于线性动态跳帧的深度双Q网络[J].计算机学报,2019,42(11):2561-2573. 被引量：2
5金海东,刘全,陈冬火.一种带自适应学习率的综合随机梯度下降Q-学习方法[J].计算机学报,2019,42(10):2203-2215. 被引量：15
6刘沛丰,王坚.一种基于抗差EKF的移动机器人定位技术[J].计算机科学,2017,44(S1):115-118. 被引量：7
7方梦琳,唐文兵,黄鸿云,丁佐华.基于模糊信息分解与控制规则的移动机器人沿墙导航[J].计算机科学,2020,47(S01):79-83. 被引量：4
8黄玉钏.基于概率神经网络图像识别的移动机器人控制研究[J].小型微型计算机系统,2019,40(4):908-912. 被引量：11
9刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406-1438. 被引量：128

二级参考文献22

1陈卫东,张飞.移动机器人的同步自定位与地图创建研究进展[J].控制理论与应用,2005,22(3):455-460. 被引量：60
2魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
3王坚,王金岭,高井祥.基于抗差EKF的GNSS导航模型研究[J].中国矿业大学学报,2008,37(4):473-477. 被引量：16
4董国伟,徐宝文,陈林,聂长海,王璐璐.蜕变测试技术综述[J].计算机科学与探索,2009,3(2):130-143. 被引量：22
5余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：610
6傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014,37(3):677-686. 被引量：26
7余学祥,吕伟才.抗差卡尔曼滤波模型及其在GPS监测网中的应用[J].测绘学报,2001,30(1):27-31. 被引量：62
8姜涛,王建中,施家栋.小型移动机器人自主返航路径规划方法[J].计算机工程,2015,41(1):164-168. 被引量：7
9李东正,郝燕玲,张振兴.基于主从结构的多水下机器人协同路径规划[J].计算机仿真,2015,32(1):382-387. 被引量：2
10郑延斌,李波,安德宇,李娜.基于分层强化学习及人工势场的多Agent路径规划方法[J].计算机应用,2015,35(12):3491-3496. 被引量：14

共引文献232

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：43
2陈述,田亚,袁越.风力作用下的大坝浇筑空间冲突频率研究[J].水力发电学报,2020(5):27-35. 被引量：9
3郑烨,施晓牧,刘嘉祥.基于多路径回溯的神经网络验证方法[J].软件学报,2022,33(7):2464-2481. 被引量：3
4马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
5闫冬,陈盛,彭国政,谈元鹏,张玉天,吴凯.基于层次深度强化学习的带电作业机械臂控制技术[J].高电压技术,2020,46(2):459-471. 被引量：17
6刘俊红.3中药汤剂对胃溃疡治疗机理的探讨[J].河南中医,2000,20(3):28-28. 被引量：3
7张谦.一种移动机器人扩展卡尔曼滤波定位算法及仿真[J].广东第二师范学院学报,2017,37(5):80-88. 被引量：1
8赵治月,刘伟,刘丽贞.基于激光传感器的零件几何尺寸测量[J].激光杂志,2018,39(7):55-58. 被引量：4
9汪岿,刘柏嵩.文本分类研究综述[J].数据通信,2019,0(3):37-47. 被引量：21
10罗颖,秦文虎,翟金凤.基于改进DDPG算法的车辆低速跟驰行为决策研究[J].测控技术,2019,38(9):19-23. 被引量：3

1许李囡,高静怀,杨阳,高照奇,王前.基于S变换和变分法的品质因子Q估计方法[J].石油地球物理勘探,2022,57(1):82-90. 被引量：6
2李琳,李玉泽,张钰嘉,魏巍.基于多估计器平均值的深度确定性策略梯度算法[J].郑州大学学报（工学版）,2022,43(2):15-21. 被引量：2
3Zhang Jin,Wang Yan-Guo,Zhang Guo-Shu,Lan Hui-Tian,Zhang-Hua,Hao Ya-Ju.Q estimation using multifrequency point average method based on the Taylor series expansion with a different order[J].Applied Geophysics,2021,18(4):557-568. 被引量：2
4张瑾,张国书,王彦国,李红星.利用泰勒级数展开的振幅谱积分差值的Q值估计方法[J].石油地球物理勘探,2022,57(2):320-330. 被引量：5
5郭冬子,黄荣,许河川,孙立伟,崔乃刚.再入飞行器深度确定性策略梯度制导方法研究[J].系统工程与电子技术,2022,44(6):1942-1949. 被引量：1

计算机工程与设计

2022年第5期

浏览历史

内容加载中请稍等...

基于离线模型预训练学习的改进DDPG算法

参考文献9

二级参考文献22

共引文献232

相关作者

相关机构

相关主题

浏览历史