基于改进SAC的倒立摆控制算法研究被引量：1

Research on the control algorithm of inverted pendulum based on improved SAC

下载PDF

导出

摘要针对倒立摆系统控制过程中易受外界干扰和自然不稳定的特点,以及深度强化学习SAC算法采样数据利用率较低和随机离线策略网络收敛较慢的问题,提出了一种结合近端经验采样和优化策略网络结构的改进算法PRER_SAC。构建神经网络拟合函数,策略网络使用性能更优的Mish函数作为激活函数,设置自调节温度系数以增强智能体的探索能力;设计远、近两个经验池,及一种改变数据存放频率的训练策略,提高数据样本的利用率。通过仿真实验对比,所提方法在同等训练次数下所得回报值和算法收敛速度优于DDPG和SAC算法,同传统控制方法PID和LQR相比,有更好的控制效果。最后,对训练好的智能体加入角度扰动,可在2 s内被消除抑制,证明提出的算法具有较强的适用性。 In response to the characteristics of external interference and natural instability in the control process of inverted pendulum systems,and the problems of low utilization of sampling data and slow convergence of random offline strategy networks in deep reinforcement learning SAC algorithm,an improved algorithm PRER_SAC is proposed that combines recency experience sampling and optimize policy network structure.The neural network fitting function is constructed,the policy network uses the better performance Mish function as the activation function,and sets the self-adjusting temperature coefficient to enhance the exploration ability of agent.Design two experience pools,far and near,and a training strategy to change the frequency of data storage.Through simulation experiments,the return value and convergence speed of the proposed method under the same number of training times are better than DDPG and SAC algorithms,and have better control effects than the traditional control methods PID and LQR.Finally,the angle disturbance added to the trained agent can be eliminated within 2 s,which proves that the proposed algorithm has strong applicability.

作者张晓莉郭仕林刘鼎宋婉莹 Zhang Xiaoli;Guo Shilin;Liu Ding;Song Wanying(College of Communication and Information Engineering,Xi'an University of Science and Technology,Xi'an 710600,China)

机构地区西安科技大学通信与信息工程学院

出处《电子测量技术》北大核心 2024年第1期93-100,共8页 Electronic Measurement Technology

基金国家自然科学基金青年项目(61901358) 中国博士后科学基金面上项目(2019QDJ207) 陕西省教育厅一般专项(20JK0757)资助。

关键词激活函数神经网络深度强化学习倒立摆系统 activation function neural network deep reinforce learning inverted pendulum system

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献15

1程丽梅,贾文川.连续型强化学习与PID控制的应用对比分析:以一阶倒立摆系统为例[J].工业控制计算机,2021,34(10):20-22. 被引量：2
2姜海燕.直线一级倒立摆的PID控制方法研究[J].河南科学,2019,37(6):908-913. 被引量：1
3张凯,郁豹.单级倒立摆的PID和LQR控制效果的比较[J].工业控制计算机,2017,30(8):111-112. 被引量：2
4翟彦彦.一级倒立摆模糊控制、LQR控制和PID控制的比较研究[J].电子设计工程,2016,24(7):116-119. 被引量：3
5宋倩,罗富贵.基于手写体数字识别的激活函数对比研究[J].现代信息科技,2023,7(4):95-97. 被引量：1
6赵克刚,石翠铎,梁志豪,李梓棋,王玉龙.基于柔性演员-评论家算法的自适应巡航控制研究[J].汽车技术,2023(3):26-34. 被引量：4
7王雨轩,陈思溢,黄辉先.基于改进深度强化学习的倒立摆控制器设计[J].控制工程,2022,29(11):2018-2026. 被引量：6
8王军,杨云霄,李莉.基于改进深度强化学习的移动机器人路径规划[J].电子测量技术,2021,44(22):19-24. 被引量：19
9宁强,刘元盛,谢龙洋.基于SAC的自动驾驶车辆控制方法应用[J].计算机工程与应用,2023,59(8):306-314. 被引量：2
10张浩杰,苏治宝,苏波.基于深度Q网络学习的机器人端到端控制方法[J].仪器仪表学报,2018,39(10):36-43. 被引量：27

二级参考文献130

1孔凡国,李肇星,张健存,熊刚,Timo RNyberg.四轴飞行器——倒立摆系统的控制算法研究[J].智能科学与技术学报,2019,0(2):140-144. 被引量：3
2林依凡,陈彦杰,何炳蔚,黄益斌,王耀南.无碰撞检测RRT^*的移动机器人运动规划方法[J].仪器仪表学报,2020(10):257-267. 被引量：41
3李凤云,严德昆.免疫优化神经网络对倒立摆的控制[J].控制工程,2008,15(S1):126-127. 被引量：2
4丛爽,张冬军.柔性连接倒立摆系统的控制与实现[J].控制工程,2004,11(6):506-509. 被引量：12
5曹刚,俞海斌,徐巍华,褚健.大时滞不稳定对象的PID控制[J].仪器仪表学报,2005,26(3):301-303. 被引量：16
6严雪莉,江汉红.单级倒立摆控制方法的仿真对比研究[J].测控技术,2005,24(7):37-39. 被引量：16
7姚胜兴,彭楚武.基于比例切换变结构控制的倒立摆系统研究[J].武汉理工大学学报,2007,29(4):114-117. 被引量：5
8杨世勇,徐莉苹,王培进.单级倒立摆的PID控制研究[J].控制工程,2007,14(B05):23-24. 被引量：37
9杨世勇,王培进,徐莉苹.基于最优控制的倒立摆系统[J].烟台大学学报（自然科学与工程版）,2007,20(2):120-122. 被引量：4
10KHARGONEKER P P, PETERSEN I R,ZHOU K. Feedback Stabilization of Uncertain Systerms Proc. Of 25th Allerton Contr. Commun. Contr. Comput. Munticello, Illinois, IB, 1987: 88-96.

共引文献84

1徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：10
2高子航.基于5G通信的四足机器人控制系统设计[J].电子技术（上海）,2021,50(5):140-141. 被引量：3
3张博,黄山,张浛芮,李应昆,涂海燕.基于强化学习的艾灸机器人温度控制策略研究[J].电子测量技术,2022,45(24):60-66. 被引量：1
4郑冰原,孙彦赞,吴雅婷,王涛.基于深度强化学习的超密集网络资源分配[J].电子测量技术,2020(9):133-138. 被引量：6
5樊国根,蒙芳.基于粒子群智能优化的机器人路径全局规划算法[J].电子测量技术,2020(7):41-45. 被引量：7
6李鹏.基于改进PSO-BP算法的机器人目标位姿识别方法[J].国外电子测量技术,2023,42(1):7-12. 被引量：7
7许杨子,强文,刘俊,孙鸿雁,胡成刚.基于改进深度强化学习算法的电力市场监测模型研究[J].国外电子测量技术,2020,39(1):82-87. 被引量：5
8刘亚丽.基于基模糊自适应PID的ATO优化研究[J].电子测量技术,2013,36(6):56-59. 被引量：4
9刘文龙.基于T-S模糊模型的多变量非线性预测控制[J].电子测量与仪器学报,2013,27(10):998-1003. 被引量：20
10施雨农,叶春生.基于模糊控制的前车灯检测系统[J].电子测量技术,2014,37(5):64-68. 被引量：6

同被引文献6

1王雯,崔建峰,武燕.倒立摆张量积分散LQR稳定控制[J].控制工程,2020,27(3):476-480. 被引量：5
2蒋凌云,徐炳吉,张峰华,张钦琛.直线二级倒立摆的一种稳定控制算法研究[J].计算机仿真,2023,40(2):314-320. 被引量：3
3魏芬,王素青,邓海琴,郝雯娟.基于模糊控制算法的一级倒立摆控制研究[J].计算机仿真,2023,40(3):320-325. 被引量：2
4戴福全,张西康.旋转倒立摆参数辨识与建模方法研究[J].机床与液压,2023,51(9):113-117. 被引量：1
5吉红,王颖丽,赵忠义,孙宏图.基于二级倒立摆的数学建模及系统性能分析[J].机械设计,2023,40(7):137-142. 被引量：1
6张慧慧,侯伯杰,高建设,郭明.基于LQR对直线倒立摆的稳摆控制研究及实现[J].机械设计与制造,2024(1):186-190. 被引量：1

引证文献1

1吴永恒,王永华,李明,温炜坚.基于策略迭代的滑动自平衡偏置倒立摆自适应最优控制[J].广州城市职业学院学报,2024,18(3):85-89.

1邹天越,喻厚宇,何博,胡永康,尹思源.基于前馈和多输入模糊LQR的路径跟踪控制研究[J].武汉理工大学学报,2024,46(1):121-128.
2李雪婧.智能制造中工业机械臂的精确控制技术研究[J].现代制造技术与装备,2024,60(2):185-188.
3王悠,方林逸,韩立祥.基于DDPG算法的旋翼无人机智能跟踪方法[J].自动化应用,2024,65(5):12-17.
4唐杰,刘琳,黄肇,邵武,刘白杨,易资兴.直驱永磁风力发电机的变系数PD虚拟惯量控制研究[J].电工技术,2024(4):57-61.
5何德宇,肖文勋.具有高抗偏移特性的PT对称无线电能传输技术[J].电力电子技术,2023,57(9):54-57.
6杨忆昕,黄草,刘晋龙,李威岐,曹劲松.大水位变幅下多级闸控河渠自适应控制方法研究[J].灌溉排水学报,2024,43(4):66-73.
7Nirmal S.Mehta,Vishisht Bhaiya,K.A.Patel,Ehsan Noroozinejad Farsangi.Predictive active control of building structures using LQR and artificial intelligence[J].Earthquake Engineering and Engineering Vibration,2024,23(2):489-502.

电子测量技术

2024年第1期

浏览历史

内容加载中请稍等...

基于改进SAC的倒立摆控制算法研究被引量：1

参考文献15

二级参考文献130

共引文献84

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于改进SAC的倒立摆控制算法研究 被引量：1

参考文献15

二级参考文献130

共引文献84

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于改进SAC的倒立摆控制算法研究被引量：1