双Q网络学习的迁移强化学习算法被引量：4

Transfer reinforcement learning algorithm with double Q-learning

下载PDF

导出

摘要深度强化学习在训练过程中会探索大量环境样本,造成算法收敛时间过长,而重用或传输来自先前任务(源任务)学习的知识,对算法在新任务(目标任务)的学习具有提高算法收敛速度的潜力。为了提高算法学习效率,提出一种双Q网络学习的迁移强化学习算法,其基于actor-critic框架迁移源任务最优值函数的知识,使目标任务中值函数网络对策略作出更准确的评价,引导策略快速向最优策略方向更新。将该算法用于Open AI Gym以及在三维空间机械臂到达目标物位置的实验中,相比于常规深度强化学习算法取得了更好的效果,实验证明提出的双Q网络学习的迁移强化学习算法具有较快的收敛速度,并且在训练过程中算法探索更加稳定。 Deep reinforcement learning explores a large number of environmental samples during the training process,which will cause the algorithm to take too long to converge.Reuse or transfer the knowledge of the previous task(source task),which has the potential to improve the convergence speed for the learning of the algorithm in the new task(target task).In order to improve the efficiency of algorithm learning,this paper proposed transfer reinforcement learning algorithm with double Q-lear-ning.The algorithm based on the actor-critic framework utilized the knowledge of the optimal value function of the source task,so that the value function network of the target task made a more accurate evaluation of the strategy,and guided the stra-tegy to quickly update in the direction of the optimal strategy.In Open AI Gym and the experiments where manipulator reaches the target position in the three-dimensional space,this algorithm achieves better results than conventional deep reinforcement learning algorithms.Experiments show that transfer reinforcement learning algorithm with double Q-learning has faster convergence speed,and the algorithm exploration is more stable during the training process.

作者曾睿周建刘满禄张俊俊陈卓 Zeng Rui;Zhou Jian;Liu Manlu;Zhang Junjun;Chen Zhuo(School of Manufacturing Science&Engineering,Southwest University of Science&Technology,Mianyang Sichuan 621000,China;Robot Technology Used for Special Environment Key Laboratory of Sichuan Province,Southwest University of Science&Technology,Mianyang Sichuan 621000,China;School of Information Engineering,Southwest University of Science&Technology,Mianyang Sichuan 621000,China)

机构地区西南科技大学制造科学与工程学院西南科技大学特殊环境机器人技术四川省重点实验室西南科技大学信息工程学院

出处《计算机应用研究》 CSCD 北大核心 2021年第6期1699-1703,共5页 Application Research of Computers

基金国家“十三五”核能开发项目(20161295) 国家科技重大专项资助项目(2019ZX06002022)。

关键词深度强化学习双Q网络学习 actor-critic框架迁移学习 deep reinforcement learning(DRL) double Q-learning actor-critic framework transfer learning(TL)

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8

二级参考文献5

1王海忠,于泉,顾九春,石建军.城市交通信号控制系统研究(二)[J].交通科技,2004,14(6):94-97. 被引量：4
2林晓辉.基于全感应控制的交叉口信号控制方法与模型[J].现代交通技术,2015,12(1):44-46. 被引量：10
3方巍.从云计算到雾计算的范式转变[J].南京信息工程大学学报（自然科学版）,2016,8(5):404-414. 被引量：23
4郑晓鸿.VISSIM仿真技术在交通领域中的应用[J].中小企业管理与科技,2017,1(20):147-148. 被引量：4
5高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：270

共引文献7

1李朋,郑亮,王艺淳,姜凯,赵鑫鑫,王子彤,秦刚,郝虹,高岩,于治楼.一种基于SDN的智慧交通系统设计[J].信息技术与信息化,2019(5):36-40. 被引量：1
2李玲琳.基于雾计算的实时交通诱导规划机制研究[J].企业技术开发,2019,38(6):1-3.
3何英昊,郑鹏辉,李广,岳炜茗.十字路口智能导流控制系统[J].物联网技术,2022,12(11):60-63. 被引量：2
4王伟.基于窄带物联网的太阳能智慧路灯控制系统设计[J].自动化与仪表,2023,38(4):24-29. 被引量：2
5杨道平,葛耿育,夏德友.基于混沌遗传算法的交通灯时长调节仿真[J].计算机仿真,2023,40(5):192-196. 被引量：2
6韦景竹,王政,祝培培,黄百川.智能协同的多点区域性网借平台研究[J].中国图书馆学报,2023,49(5):44-62. 被引量：1
7秦侨,杨超,杨海涛,黄旭民,张斌,杨海森.结合模糊控制的深度强化学习交通灯控制策略[J].计算机应用研究,2024,41(1):165-169.

同被引文献21

1胡阳,杨泽,房方,任健.火电机组供电碳减排高维运行特征提取及其最优基准值确定[J].中国电机工程学报,2021,41(S01):210-220. 被引量：12
2刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：487
3刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406-1438. 被引量：140
4徐继宁,曾杰.基于深度强化算法的机器人动态目标点跟随研究[J].计算机科学,2019,46(S11):94-97. 被引量：7
5贺亮,徐正国,贾愚,沈超,李赟.深度强化学习复原多目标航迹的TOC奖励函数[J].计算机应用研究,2020,37(6):1626-1632. 被引量：2
6Hao-nan WANG,Ning LIU,Yi-yun ZHANG,Da-wei FENG,Feng HUANG,Dong-sheng LI,Yi-ming ZHANG.Deep reinforcement learning:a survey[J].Frontiers of Information Technology & Electronic Engineering,2020,21(12):1726-1744. 被引量：19
7潘栋,李楠,李锋,冯奎双,彭璐璐,王震.基于能源碳排放预测的中国东部地区达峰策略制定[J].环境科学学报,2021,41(3):1142-1152. 被引量：55
8唐伦,贺兰钦,连沁怡,谭颀.基于改进深度强化学习的虚拟网络功能部署优化算法[J].电子与信息学报,2021,43(6):1724-1732. 被引量：6
9周盛世,单梁,常路,陈佳,刘成林,李军.基于改进DDPG算法的机器人路径规划算法研究[J].南京理工大学学报,2021,45(3):265-270. 被引量：15
10彭猛,吴剑,陈柳芮,王磊,许嘉钰.基于生产函数理论的重庆市碳排放预测[J].江苏大学学报（自然科学版）,2021,42(4):451-457. 被引量：6

引证文献4

1张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376. 被引量：1
2贺雪梅,匡胤,杨志鹏,杨亚乔.基于深度强化学习的AGV智能导航系统设计[J].计算机应用研究,2022,39(5):1501-1504. 被引量：8
3Qingbo Zhang,Manlu Liu,Heng Wang,Weimin Qian,Xinglang Zhang.Off-policy correction algorithm for double Q network based on deep reinforcement learning[J].IET Cyber-Systems and Robotics,2023,5(4):16-26.
4袁鹏,谭琛,李锋,张银芽,唐述.基于迁移深度强化学习的火电机组实时碳排放预测方法[J].工业加热,2024,53(7):65-69.

二级引证文献9

1杨友波,张目,唐俊,雷印杰.基于深度确定性策略梯度强化学习算法的航迹规划研究[J].现代计算机,2023,29(5):1-7. 被引量：1
2徐萌.基于视觉传达的船用智能导航系统界面设计研究[J].舰船科学技术,2023,45(13):166-169.
3陈骏,沈琦琦.自动导引车路径规划算法的研究综述[J].自动化与仪器仪表,2023(9):8-15. 被引量：3
4付涛,景兴淇,李正雄,任涛.离散型制造车间AGV小车自主避障路径选择研究[J].机械设计与制造,2024(4):238-243.
5李忠伟,刘伟鹏,罗偲.基于轨迹引导的移动机器人导航策略优化算法[J].计算机应用研究,2024,41(5):1456-1461.
6张艳菊,吴俊,程锦倩,陈泽荣.多搬运任务下考虑碰撞避免的AGV路径规划[J].计算机应用研究,2024,41(5):1462-1469. 被引量：2
7向紫燕.基于改进智能优化算法的自主导航物流小车路径决策方法[J].集成电路与嵌入式系统,2024,24(9):74-80.
8石斌,何奇彦.基于AGV导航技术的智慧乡村旅游景区标识系统规划研究[J].自动化与仪器仪表,2024(9):313-316.
9梁彬.基于蜣螂优化算法的移动机器人路径规划[J].电脑知识与技术,2024,20(29):28-30.

1焦淼.深度学习视角下的语文教学研究——以初中语文课堂为例[J].科技风,2021(15):34-35. 被引量：2
2马雄伟.高中化学中学生学习迁移能力的培养和提高[J].高中数理化,2021(8):66-66.
3产品[J].食品安全导刊,2021(16):14-14.
4宋林森.一类极小值复合向量函数Clarke广义Jacobi的有效算法[J].河南科技学院学报（自然科学版）,2020,48(5):52-56.
5肖程凤,方东辉.含参DC复合优化问题值函数的Mordukhovich次微分[J].吉首大学学报（自然科学版）,2021,42(1):29-34.
6黄海燕,张官婷,潘伟芬,黄群娣,王美玲,石焕桥,柯昌文,钟国辉.广州市增城区农贸市场外环境禽流感病毒污染状况分析[J].国际病毒学杂志,2021,28(2):158-161. 被引量：2
7杨鹏,杨志江.相对表现视角下的再保险与投资策略[J].系统科学与数学,2021,41(2):517-532. 被引量：2
8Jiaxin Zhang,Kewen Li,Yongming Li.Output-Feedback Based Simplified Optimized Backstepping Control for Strict-Feedback Systems with Input and State Constraints[J].IEEE/CAA Journal of Automatica Sinica,2021,8(6):1119-1132. 被引量：8
9李闻,郑宝璐,于爱萍,高鑫,李晓燕.天津市一起停乳链球菌似马亚种感染引起的聚集性发热事件的调查分析[J].中国热带医学,2021,21(5):403-407. 被引量：4
10戴卫民,石莹,罗廷刚,庞伟,陈晓,赵璇,韩燕霞,李锐,倪凡,刘亚男.新型冠状病毒肺炎疫情常态化防控院内感染应急处置与思考[J].武警医学,2021(2):93-96. 被引量：4

计算机应用研究

2021年第6期

浏览历史

内容加载中请稍等...

双Q网络学习的迁移强化学习算法被引量：4

参考文献1

二级参考文献5

共引文献7

同被引文献21

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

双Q网络学习的迁移强化学习算法 被引量：4

参考文献1

二级参考文献5

共引文献7

同被引文献21

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

双Q网络学习的迁移强化学习算法被引量：4