一种训练深度神经网络进行强化学习的方法

A Method for Reinforcement Learning by Training Deep Neural Networks

下载PDF

导出

摘要深度强化学习是当前机器学习领域中一个非常重要的研究方向,它通过环境对学习的反馈交互从而实现端到端的学习,能够解决一些维度高且规模大的问题。深度强化学习已经取得了多项引入注目的成果,但其缺点是鲁棒性差、局部探索能力不强、梯度易受影响。化学反应算法能够快速实现全局搜索,易于并行实现,且具有良好的鲁棒性。因此,将化学反应优化算法应用于无模型的深度强化学习方法,实践证明有一定的加速效果。 Deep reinforcement learning is a very important research direction in the current field of machine learning.It realizes end-to-end learning through the feedback interaction of the environment to learning,and can solve some high-dimensional and large-scale problems.Deep reinforcement learning has achieved many attractive results,but its disadvantages are poor robustness,weak local exploration ability,and susceptible gradients.The chemical reaction algorithm can quickly realize the global search,is easy to implement in parallel,and has good robustness.Therefore,applying the chemical reaction optimization algorithm to the model-free deep reinforcement learning method has been proved to have a certain acceleration effect.

作者欧阳陈华魏书堤张汛 OUYANG Chen-hua;WEI Shu-di;ZHANG Xun(Hengyang Normal University,Hengyang 421008,China)

机构地区衡阳师范学院

出处《电脑与信息技术》 2023年第1期8-10,共3页 Computer and Information Technology

基金湖南省教育厅科学研究项目(项目编号:20C0290) 衡阳师范学院南岳学院教学改革研究项目(项目编号:NJY201908)。

关键词强化学习 DQN CRO reinforcement Learning DQN CRO

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1徐磊,侯磊,李雨,朱振宇,雷婷.机器学习在油气管道的应用研究进展及展望[J].油气储运,2021,40(2):138-145. 被引量：12
2蒋海青,赵燕伟,冷龙龙.基于化学反应优化算法的车辆路径问题[J].计算机集成制造系统,2018,24(8):2012-2022. 被引量：10
3吕帅,龚晓宇,张正昊,韩帅,张峻伟.结合进化算法的深度强化学习方法研究综述[J].计算机学报,2022,45(7):1478-1499. 被引量：8
4李帅龙,张会文,周维佳.模仿学习方法综述及其在机器人领域的应用[J].计算机工程与应用,2019,55(4):17-30. 被引量：8

二级参考文献30

1葛继科,邱玉辉,吴春明,蒲国林.遗传算法研究综述[J].计算机应用研究,2008,25(10):2911-2916. 被引量：407
2公茂果,焦李成,杨咚咚,马文萍.进化多目标优化算法研究[J].软件学报,2009,20(2):271-289. 被引量：397
3曹广华,宛立达,袁子龙,金树波.基于递归神经网络的游梁式抽油机振动故障诊断[J].长江大学学报（自科版）（上旬）,2010,7(1):57-59. 被引量：1
4张景玲,王万良,赵燕伟.基于沿途补货的多配送中心动态需求VRP建模及优化[J].计算机集成制造系统,2013,19(4):869-878. 被引量：15
5李器宇,张拯宁,柳建斌,郭峰,李明.无人机遥感在油气管道巡检中的应用[J].红外,2014,35(3):37-42. 被引量：29
6周念成,廖建权,王强钢,李春艳,李剑.深度学习在智能电网中的应用现状分析与展望[J].电力系统自动化,2019,43(4):180-191. 被引量：169
7曹高立,胡蓉,钱斌,吴丽萍.一种有效混合量子进化算法求解带容量约束的车辆路径优化问题[J].计算机集成制造系统,2015,21(4):1101-1113. 被引量：18
8薛禹胜,赖业宁.大能源思维与大数据思维的融合(一)大数据与电力大数据[J].电力系统自动化,2016,40(1):1-8. 被引量：250
9郭越,王晓峰,张恒振.基于人类感知的SAR图像海上溢油检测算法[J].武汉大学学报（信息科学版）,2016,41(3):395-401. 被引量：4
10王金甲,陈浩,刘青玉.大数据下的深度学习研究[J].高技术通讯,2017,27(1):27-37. 被引量：17

共引文献34

1迟明善,姚玉峰,刘亚欣.基于示教编程的共融机器人技能学习方法的研究进展[J].仪器仪表学报,2020,41(1):71-83. 被引量：7
2蒋海青,赵燕伟,徐兆军,柳青,张景玲.动态需求低碳开放式选址—路径问题[J].计算机集成制造系统,2020,26(1):202-212. 被引量：8
3赵燕伟,蒋海青,张景玲.求解车辆路径问题的量子差分进化算法[J].浙江工业大学学报,2020,48(1):68-72. 被引量：3
4李斌成,何国强.改进遗传算法在容量约束车辆路径问题中的应用研究[J].供应链管理,2020,1(3):107-116. 被引量：4
5何国强,李斌成,王东先.基于改进双种群混合遗传算法的车辆路径问题研究[J].供应链管理,2020,1(7):108-118. 被引量：2
6王琪,闵华松.双臂机器人的协调控制算法综述[J].计算机工程与应用,2021,57(1):1-16. 被引量：16
7朱应钊,李嫚.元学习研究综述[J].电信科学,2021,37(1):22-31. 被引量：8
8吴慧君.基于灰狼算法的车辆配送物流路径优化研究[J].安阳师范学院学报,2021(2):36-40.
9寇健.长输油气管道安全管理探讨[J].现代职业安全,2021(5):94-96.
10唐彦,张进军.基于改进的鲸鱼优化算法的物流车辆配送路径规划[J].陇东学院学报,2021,32(5):6-10. 被引量：2

1Celine.THE CROODS A NEW AGE[J].小学生时代（大嘴英语）,2022(12):40-45.
2朱殿红.基于高速公路隧道施工管理的措施研究[J].中文科技期刊数据库（文摘版）工程技术,2022(11):57-59.
3邱波,田延猛.进口与国产替加环素临床抗菌疗效对比[J].中国抗生素杂志,2022,47(12):1280-1284. 被引量：1
4王昊,徐保平.囊性纤维化的发病机制和分子调节治疗的研究进展[J].中华实用儿科临床杂志,2022,37(22):1721-1723. 被引量：1
5马智杰,王远航,姜家财,张天贤.基于无模型强化学习的雷达波束多阶段管理方法[J].现代雷达,2022,44(11):44-50.
6肖豪.硅酸钠选择性提取电镀污泥中铬的研究[J].化学工程师,2023,37(1):75-80.
7梁芬香.莫尔法测定单液型酸性蚀刻液中氯含量[J].广东化工,2023,50(1):194-195. 被引量：1
8孔欣,张剑,郦梦云,孙爱宁,韩悦,唐晓文,仇惠英,吴德沛.头孢他啶阿维巴坦治疗血液病患者粒细胞缺乏期感染的疗效分析[J].中华血液学杂志,2022,43(12):1038-1042. 被引量：1
9汪要望,吴安华,黄勋,李洁,李春辉,曾烂漫,文细毛,付陈超,任南,孟秀娟.某院综合ICU耐碳青霉烯革兰阴性杆菌的环境流行调查[J].中国抗生素杂志,2022,47(12):1305-1311. 被引量：3
10黄娴,李伟键,毕远桥,张云琛,林泳,林思瀚.抗一阶侧信道攻击的QUAD高速并行实现[J].小型微型计算机系统,2023,44(2):435-441.

电脑与信息技术

2023年第1期

浏览历史

内容加载中请稍等...

一种训练深度神经网络进行强化学习的方法

参考文献4

二级参考文献30

共引文献34

相关作者

相关机构

相关主题

浏览历史