一种电液伺服系统安全强化学习控制方法

A safety reinforcement learning control method for electro-hydraulic servo system

下载PDF

导出

摘要电液伺服系统动态性能复杂多变,很难为其运动控制获得精确的动力学模型.本文以高精度电液伺服仿真模型作为研究对象,将电液伺服系统位置控制问题转化为强化学习中的状态稀疏奖励问题,使用基于强化学习的屏障函数安全控制方法进行控制器整定.相比传统控制方法,本文直接通过优化状态空间稀疏奖励与安全屏障辅助奖励实现基于数据的安全强化学习控制器整定,其预设安全性为强化学习控制方法实际应用于工业生产奠定了基础.结果表明,使用安全屏障辅助奖励项进行稀疏奖励优化保障算法收敛性的同时能有效实现稳态安全控制目标.在高精度电液伺服系统非线性多项式仿真模型的位置控制问题中证明了本文所提安全强化学习控制方法的有效性. The complexity and the changeable nature in the dynamic performance of electro-hydraulic servo systems leads to difficulties of obtaining an accurate dynamic model for the motion control of these systems.In this study,we take the high-precision electro-hydraulic servo simulation model as the research object,turn the position control optimization problem into a state sparse reward problem in reinforcement learning(RL),and use a safety control method with barrier function based on RL used for controller tuning.Compared with traditional control methods,we directly optimize the state space sparse reward and barrier function to achieve data-bases safety RL controller tuning.Its preset safety lays the foundation for the practical application of RL control methods in industrial production.Results show that adding the barrier function to the state reward function can effectively optimize the stability and robustness of the controller while ensuring the convergence of the algorithm.The effectiveness of the safety reinforcement learning control method proposed herein is demonstrated in the displacement control of high-precision electro-hydraulic servo system nonlinear polynomial simulation model.

作者唐逸凡余臻刘利军 TANG Yifan;YU Zhen;LIU Lijun(School of Aerospace Engineering,Xiamen University,Xiamen 361102,China;Shenzhen Research Institute of Xiamen University,Shenzhen 518057,China)

机构地区厦门大学航空航天学院厦门大学深圳研究院

出处《厦门大学学报（自然科学版）》 CAS CSCD 北大核心 2022年第2期239-245,共7页 Journal of Xiamen University：Natural Science

基金国家自然科学基金(61304110) 福建省自然科学基金(2020J01052) 深圳市基础研究项目(JCYJ20190809163009630) 中国航发研究院创新基金(HKCK2020-02-029)。

关键词电液伺服系统安全控制强化学习屏障函数 electro-hydraulic servo system safety control reinforcement learning barrier function

分类号 TP273 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献9

1李运华,史维祥,林廷圻.近代液压伺服系统控制策略的现状与发展[J].液压与气动,1995,19(1):3-6. 被引量：44
2余臻,李喆瀚,刘利军.电液伺服系统多项式非线性建模与控制一体化设计[J].控制理论与应用,2021,38(3):364-372. 被引量：7
3胡相捧,刘新华,庞义辉,刘万财.基于BP神经网络PID的液压支架初撑力自适应控制[J].矿业科学学报,2020,5(6):662-671. 被引量：16
4孙桂涛,邵俊鹏,王晓晶.电液位置伺服系统模糊速度补偿μ复合控制[J].农业机械学报,2014,45(8):328-333. 被引量：9
5赵升吨,魏树国,王军.液压伺服控制系统研究现状的分析[J].伺服控制,2006,0(6):16-23. 被引量：23
6刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：470
7高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：266
8杨惟轶,白辰甲,蔡超,赵英男,刘鹏.深度强化学习中稀疏奖励问题研究综述[J].计算机科学,2020,47(3):182-191. 被引量：37
9董蒙,栾希亭,吴宝元,梁俊龙.基于自适应遗传算法的电液伺服系统控制[J].机床与液压,2019,47(14):78-83. 被引量：21

二级参考文献84

1王培峰,李青茹.具有修正因子的模糊控制器及其应用[J].河北工业科技,2004,21(4):16-18. 被引量：3
2孙建民.基于带修正因子的模糊控制汽车主动悬架系统的研究[J].振动工程学报,2005,18(1):79-84. 被引量：6
3史冬琳,冯玉昌,戴春喜,冯锁丽.遗传优化模糊控制器在磨煤机系统中的应用[J].电力科学与工程,2005,21(1):52-55. 被引量：4
4代宝江,高艳明,张永利,冯毅,田树军.采用遗传算法进行液压集成块的自动优化设计[J].机床与液压,2005,33(4):90-92. 被引量：5
5吴春富.基于遗传算法优化的模糊PID控制研究[J].自动化技术与应用,2005,24(7):14-15. 被引量：7
6魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
7邵剑宇,黎亚元,戴巨川.液压伺服系统的神经网络自适应控制[J].机械设计与制造,2005(10):140-141. 被引量：1
8黄镇海,钟绍俊,谢敏,郭振武.神经网络变结构在液压伺服系统控制中的应用[J].中国计量学院学报,2005,16(3):199-202. 被引量：5
9赵建军.电液控制技术现状及发展趋势[J].煤,2006,15(3):55-57. 被引量：6
10叶正茂,赵慧,张尚盈,韩俊伟.基于位置内环的柔顺力控制的研究[J].控制与决策,2006,21(6):651-655. 被引量：10

共引文献853

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：43
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376.
5项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
6李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
7林伟健.纸浆模塑制品热压定型装置的优化改良分析[J].机电工程技术,2021,50(S01):17-19. 被引量：2
8周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：7
9安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
10李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1

1李占成.关于土木工程施工质量控制与安全管理的探讨[J].区域治理,2018,0(13):83-83. 被引量：1
2刘珊.黑龙江信息通信业迅速提供通信保障助力疫情防控[J].通信管理与技术,2021(5):3-3.
3孙秀洪.安全控制移动存储问答[J].网络安全和信息化,2021(10):167-170.
4郭明霄,王宏伟,王佳,李昊哲,杨仕旗.基于动量分数阶梯度的卷积神经网络优化方法[J].计算机工程与应用,2022,58(6):80-87. 被引量：3
5切斯瓦夫·米沃什.礼物[J].北方人,2022(6):1-1.
6荣斐.农产品质量检测与安全控制现状及对策[J].世界热带农业信息,2022(4):67-68. 被引量：3
7滕俊磊,肖湘雄.数字技术赋能食用农产品安全治理——价值逻辑、风险研判与发展理路[J].安顺学院学报,2022,24(1):33-37. 被引量：3
8孟一然.浅析建筑工程施工现场的安全控制[J].工程建设（维泽科技）,2022,5(3):33-35.
9陈静.高校志愿服务项目体系研究[J].区域治理,2022(13):166-169.
10李伟丽.大数据背景下企业会计人员角色变化新趋势[J].产业创新研究,2021(21):129-131. 被引量：1

厦门大学学报（自然科学版）

2022年第2期

浏览历史

内容加载中请稍等...

一种电液伺服系统安全强化学习控制方法

参考文献9

二级参考文献84

共引文献853

相关作者

相关机构

相关主题

浏览历史