深度强化学习TD3算法在倒立摆系统中的应用被引量：3

Research on Application of Deep Reinforcement Learning TD3 Algorithm in Inverted Pendulum System

下载PDF

导出

摘要针对现有控制算法在倒立摆系统控制中存在的局限性,融合强化学习和深度学习方法,提出一种基于双延迟深度确定性策略梯度(TD3)的倒立摆端到端控制方法。首先,利用倒立摆动力学模型搭建虚拟仿真环境,设计稀疏奖励函数;其次,通过深度神经网络构建从倒立摆状态输入到执行动作输出的端到端控制模型,分析倒立摆特性,来确定神经网络结构和参数;最后,将虚拟仿真环境中生成的模型移植到倒立摆实物平台并进行优化。试验结果表明:该方法生成的模型能够有效地建立倒立摆状态和执行动作之间的映射关系,在运动控制中具有一定的借鉴意义。 Aiming at the limitations of existing control algorithms in the control of inverted pendulum systems, an end-to-end control method for inverted pendulums based on the dual-delay depth deterministic strategy gradient(TD3) is proposed combining reinforcement learning and deep learning. First, the inverted pendulum dynamic model is used to build a virtual simulation environment, and a sparse reward function is designed. Then, a deep neural network is used to build an end-to-end control model from the inverted pendulum state input to the execution action output, the characteristics of the inverted pendulum are analyzed, and the neural network structure and parameters are determined. Finally, the model generated in the virtual simulation environment is transplanted to the inverted pendulum physical platform for optimization. Experiment results show that the model generated by this method can effectively establish the mapping relationship between the state of the inverted pendulum and the execution of the action, which has certain reference significance in motion control.

作者何卫东刘小臣张迎辉姚世选 HE Weidong;LIU Xiaochen;ZHANG Yinghui;YAO Shixuan(School of Mechanical Engineering,Dalian Jiaotong University,Dalian 116028,China;College of Software,Dalian Foreign Language University,Dalian 116044,China)

机构地区大连交通大学机械工程学院大连外国语大学软件学院

出处《大连交通大学学报》 CAS 2023年第1期38-44,共7页 Journal of Dalian Jiaotong University

关键词深度强化学习倒立摆控制 TD3 端到端稀疏奖励函数 deep reinforcement learning inverted pendulum control TD3 end-to-end sparse reward function

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] O314 [理学—一般力学与力学基础] TP273 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献6

1杨世勇,徐莉苹,王培进.单级倒立摆的PID控制研究[J].控制工程,2007,14(B05):23-24. 被引量：37
2谌海云,杜振华,邹宁波,石明江.多种群遗传算法的倒立摆LQR控制器设计[J].控制工程,2014,21(3):391-394. 被引量：16
3李红伟.单级倒立摆的简化模糊控制及仿真研究[J].控制工程,2010,17(6):769-773. 被引量：5
4李凤云,严德昆.免疫优化神经网络对倒立摆的控制[J].控制工程,2008,15(S1):126-127. 被引量：2
5李凯文,张涛,王锐,覃伟健,贺惠晖,黄鸿.基于深度强化学习的组合优化研究进展[J].自动化学报,2021,47(11):2521-2537. 被引量：28
6张浩杰,苏治宝,苏波.基于深度Q网络学习的机器人端到端控制方法[J].仪器仪表学报,2018,39(10):36-43. 被引量：27

二级参考文献33

1王青,张颖昕.基于遗传算法的倒立摆实验系统最优控制器[J].实验室研究与探索,2010,29(5):22-25. 被引量：5
2丛爽,张冬军.柔性连接倒立摆系统的控制与实现[J].控制工程,2004,11(6):506-509. 被引量：12
3袁品高,张广玉,秦志强,李泽湘.平面两级倒立摆的分析、控制器设计与实现[J].控制工程,2004,11(6):517-520. 被引量：8
4鲁娟娟,陈红.BP神经网络的研究进展[J].控制工程,2006,13(5):449-451. 被引量：45
5邢杰,萧德云.有序神经网络及在阳极效应预报中的应用[J].控制工程,2007,14(1):27-30. 被引量：7
6Biling S A, Tsang K M. Spectral analysis for nonlinear systerms. Part:Interpretation of nonlinear frequency response functon[J]. Mechanical Systems and Signal Processing, 1989,3 (4) :341-359.
7Zhang H, Billings S A. Analysing the transfer function of nonlinear systerms in the frequency domain [ J ]. J Mechanism Systerms and SignalProcessing,.1993, 7(5):531-550.
8Yi J, Yttbazaki N. Stabilization fuzzy control of invert-ed pendulum systerm[J]. Aaificial Intelligence in Engi-neering, 2000,14( 1 ) : 153-163.
9Yi G, Yubazaki N, Jorpta L Stabilization fuzzy control of inverted pendulum systems [ J]. Artificial Intelligence in Engineering, 2000,12 (2): 153-163.
10Furuta K.Control of unstable mechanical system:control of pendulum[J].Int J of Control,1976,23(5):673-692.

共引文献109

1徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：9
2高子航.基于5G通信的四足机器人控制系统设计[J].电子技术（上海）,2021,50(5):140-141. 被引量：3
3郑冰原,孙彦赞,吴雅婷,王涛.基于深度强化学习的超密集网络资源分配[J].电子测量技术,2020(9):133-138. 被引量：6
4樊国根,蒙芳.基于粒子群智能优化的机器人路径全局规划算法[J].电子测量技术,2020(7):41-45. 被引量：6
5许杨子,强文,刘俊,孙鸿雁,胡成刚.基于改进深度强化学习算法的电力市场监测模型研究[J].国外电子测量技术,2020,39(1):82-87. 被引量：4
6兰杰,赵曜,张慧勇.基于扩展线性化的倒立摆控制[J].云南大学学报（自然科学版）,2009,31(S2):62-66.
7孙灵芳,孔辉,刘长国,毕磊.倒立摆系统及研究现状[J].机床与液压,2008,36(B07):306-310. 被引量：29
8曹敏,徐凌桦.单神经元PID算法在倒立摆控制系统中的应用[J].微计算机信息,2009,25(1):70-71. 被引量：10
9姜增如,杨宇聪.远程斜支架倒立摆算法控制[J].实验室研究与探索,2009,28(3):28-30. 被引量：1
10刘安家,陈启军.基于切换方法的倒立摆起振和平衡控制[J].机电一体化,2009,15(6):53-55.

同被引文献24

1刘微微,张静.单级倒立摆LQR控制方法的鲁棒稳定性分析[J].黑龙江水专学报,2010,37(2):105-108. 被引量：6
2黎君,阎世梁.一级倒立摆模糊PID控制器设计[J].国外电子测量技术,2012,31(4):50-52. 被引量：16
3杜璧秀,张淑梅,高慧斌,张玉良.基于T-S模型的小车倒立摆控制[J].电子测量技术,2012,35(9):56-59. 被引量：4
4王珏,谢慕君,李元春,卜云婷,曹开发.基于滑模变结构的柔性倒立摆控制研究[J].计算机测量与控制,2015,23(12):4045-4048. 被引量：4
5翟彦彦.一级倒立摆模糊控制、LQR控制和PID控制的比较研究[J].电子设计工程,2016,24(7):116-119. 被引量：3
6王瑶为,邢科新,马剑,张文安.直线一级倒立摆的自抗扰控制方法及实现[J].控制工程,2017,24(4):711-715. 被引量：18
7张凯,郁豹.单级倒立摆的PID和LQR控制效果的比较[J].工业控制计算机,2017,30(8):111-112. 被引量：2
8刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：431
9张浩杰,苏治宝,苏波.基于深度Q网络学习的机器人端到端控制方法[J].仪器仪表学报,2018,39(10):36-43. 被引量：27
10姜海燕.直线一级倒立摆的PID控制方法研究[J].河南科学,2019,37(6):908-913. 被引量：1

引证文献3

1冯肖雪,谢天,温岳,李位星.基于深度强化学习的固高直线一级倒立摆控制实验设计[J].科技资讯,2023,21(23):4-10.
2纪鸿宇,张新,张洪彪,张涛.基于Simulink与CoppeliaSim一级倒立摆建模与仿真[J].滁州学院学报,2023,25(5):63-68.
3张晓莉,郭仕林,刘鼎,宋婉莹.基于改进SAC的倒立摆控制算法研究[J].电子测量技术,2024,47(1):93-100.

1杨向真,王锦秀,孔令浩,杜燕,张涛.电压不匹配运行条件下双有源桥变换器的效率优化方法[J].电工技术学报,2022,37(24):6239-6251. 被引量：1
2吴健发,魏春岭,张海博.航天器反应式碎片规避动作规划方法[J].宇航学报,2023,44(2):221-232. 被引量：4
3董如意,刘亚男.改进遗传算法及其在倒立摆控制中应用研究[J].吉林化工学院学报,2022,39(9):33-36. 被引量：2
4亢红波,蔡学瑞,杨亮,周倩倩.一种智能垃圾分类装置设计[J].西安邮电大学学报,2022,27(5):60-66.
5彭莉.大豆異黃酮延緩慢性移植腎病進展的實驗研究[J].镜湖医学,2007,7(1):22-24.
6周雅夫,王翰涛,连静.车用电机定子电流新型优化控制方法[J].机械设计与制造,2023(3):230-233.
7李亚舟,曹江涛,姬晓飞.融合改进Padim建模和ResNet网络的喷涂质量检测算法[J].电子测量与仪器学报,2022,36(11):91-97. 被引量：2
8张良安,张成鑫,谢胜龙.基于视觉的工业机器人离线编程系统的设计[J].机床与液压,2023,51(3):28-34. 被引量：1
9李茂捷,徐国政,高翔,谭彩铭.基于元Q学习与DDPG的机械臂接近技能学习方法[J].南京邮电大学学报（自然科学版）,2023,43(1):96-103. 被引量：1
10胡六四.基于神经网络的自适应快速视频识别框架[J].萍乡学院学报,2022,39(6):41-45.

大连交通大学学报

2023年第1期

浏览历史

内容加载中请稍等...

深度强化学习TD3算法在倒立摆系统中的应用被引量：3

参考文献6

二级参考文献33

共引文献109

同被引文献24

引证文献3

相关作者

相关机构

相关主题

浏览历史

深度强化学习TD3算法在倒立摆系统中的应用 被引量：3

参考文献6

二级参考文献33

共引文献109

同被引文献24

引证文献3

相关作者

相关机构

相关主题

浏览历史

深度强化学习TD3算法在倒立摆系统中的应用被引量：3