基于actor-critic框架的在线积分强化学习算法研究被引量：4

Research on online integral reinforcement learning algorithm based on actor-critic framework

下载PDF

导出

摘要针对轮式移动机器人动力学系统难以实现无模型的最优跟踪控制问题,提出了一种基于actor-critic框架的在线积分强化学习控制算法。首先,构建RBF评价神经网络并基于近似贝尔曼误差设计该网络的权值更新律,以拟合二次型跟踪控制性能指标函数。其次,构建RBF行为神经网络并以最小化性能指标函数为目标设计权值更新律,补偿动力学系统中的未知项。最后,通过Lyapunov理论证明了所提出的积分强化学习控制算法可以使得价值函数,行为神经网络权值误差与评价神经网络权值误差一致最终有界。仿真和实验结果表明,该算法不仅可以实现对恒定速度以及时变速度的跟踪,还可以在嵌入式平台上进行实现。 For the problem that it is difficult to achieve model-free optimal tracking control in the dynamic system of wheeled mobile robot,a new online integral reinforcement learning control algorithm based on actor-critic framework is proposed in this paper.Firstly,the critic neural network based on RBF is constructed to fit the quadratic tracking control performance index function and the weight updating law of the network is designed based on the approximate Behrman error.Secondly,the RBF actor neural network is constructed to compensate the unknown terms in the dynamic system and the weight updating law is designed to minimize the performance index function.Finally,it is proved by Lyapunov theory that the proposed integral reinforcement learning control algorithm can make the value function,the critic and actor neural network weights error uniformly and finally bounded.Simulation and experimental results show that the algorithm not only realizes the tracking of constant or time-varying velocity,but also can be implemented on the embedded platform.

作者蔡军苟文耀刘颜 Cai Jun;Gou Wenyao;Liu Yan(School of Automation,Chongqing University of Posts and Telecommunications,Chongqing 400065,China)

机构地区重庆邮电大学自动化学院

出处《电子测量与仪器学报》 CSCD 北大核心 2023年第3期194-201,共8页 Journal of Electronic Measurement and Instrumentation

基金重庆市教委科学技术研究项目(KJZD-M202200603) 重庆市自然科学基金项目(CSTB2022NSCQ-MSX0380)资助。

关键词积分强化学习 RBF神经网络非线性仿射系统跟踪控制 integral reinforcement learning RBF neural network nonlinear affine system tracking control

分类号 TP13 [自动化与计算机技术—控制理论与控制工程] TN911.4 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献2

1杨傲雷,金宏宙,陈灵,费敏锐.融合深度学习与粒子滤波的移动机器人重定位方法[J].仪器仪表学报,2021,42(7):226-233. 被引量：21
2Xiong Yang,Bo Zhao.Optimal Neuro-Control Strategy for Nonlinear Systems With Asymmetric Input Constraints[J].IEEE/CAA Journal of Automatica Sinica,2020,7(2):575-583. 被引量：6

二级参考文献4

1吕攀,辛越,张恒,李红,杨国青.基于MSCKF的IMU与激光雷达紧耦合定位方法[J].仪器仪表学报,2020,41(8):13-20. 被引量：11
2曹风魁,庄严,闫飞,杨奇峰,王伟.移动机器人长期自主环境适应研究进展和展望[J].自动化学报,2020,46(2):205-221. 被引量：36
3Zhijun Fu,Wenfang Xie,Subhash Rakheja,Jing Na.Observer-based Adaptive Optimal Control for Unknown Singularly Perturbed Nonlinear Systems With Input Constraints[J].IEEE/CAA Journal of Automatica Sinica,2017,4(1):48-57. 被引量：7
4Qinglai Wei,Derong Liu,Yu Liu,Ruizhuo Song.Optimal Constrained Self-learning Battery Sequential Management in Microgrid Via Adaptive Dynamic Programming[J].IEEE/CAA Journal of Automatica Sinica,2017,4(2):168-176. 被引量：16

共引文献25

1方鑫,何敏,黄大荣,张振源,葛亮.毫米波雷达微弱行人轨迹跟踪-预测一体化方法[J].仪器仪表学报,2023,44(11):300-309. 被引量：1
2于振,万俊贺,刘海林,裘祖荣,王志远.基于IGCF算法和CSF-PPSO-ESN算法的工业机器人末端执行器位姿重复性检测[J].仪器仪表学报,2023,44(6):43-53. 被引量：2
3王子润,燕必希,董明利,王君,孙鹏.基于激光雷达与改进AMCL的爬壁机器人定位方法[J].仪器仪表学报,2022,43(12):220-227. 被引量：11
4刘定,闫海峰,杨东伟,黄建巍,李浩,牛延博.空压机房无人值守智能巡检系统设计[J].煤炭工程,2022,54(11):62-67. 被引量：5
5章司怡,陈熙源.运动约束辅助的基于SVD-CKF的组合导航方法[J].电子测量与仪器学报,2022,36(4):82-89. 被引量：2
6Xueli Wang,Derui Ding,Hongli Dong,Xian-Ming Zhang.Neural-Network-Based Control for Discrete-Time Nonlinear Systems with Input Saturation Under Stochastic Communication Protocol[J].IEEE/CAA Journal of Automatica Sinica,2021,8(4):766-778. 被引量：10
7Jiaxin Zhang,Kewen Li,Yongming Li.Output-Feedback Based Simplified Optimized Backstepping Control for Strict-Feedback Systems with Input and State Constraints[J].IEEE/CAA Journal of Automatica Sinica,2021,8(6):1119-1132. 被引量：7
8Lina Xia,Qing Li,Ruizhuo Song,Hamidreza Modares.Optimal Synchronization Control of Heterogeneous Asymmetric Input-Constrained Unknown Nonlinear MASs via Reinforcement Learning[J].IEEE/CAA Journal of Automatica Sinica,2022,9(3):520-532. 被引量：3
9郭雅琪,史丽晨,王海涛,蒲林东.输入受限非线性系统的自适应零误差跟踪控制[J].空军工程大学学报（自然科学版）,2022,23(3):103-110.
10杨明权,桂辉阳,关宇洋,毛臻炫.基于手眼标定算法的移动机器人重定位方法研究[J].制造业自动化,2022,44(7):140-144. 被引量：1

同被引文献22

1蔡烁,邝继顺,刘铁桥,王伟征.考虑信号相关性的逻辑电路可靠度计算方法[J].电子学报,2014,42(8):1660-1664. 被引量：1
2张春雨,韩立新,徐守晶.基于栈式自动编码的图像哈希算法[J].电子测量技术,2016,39(3):46-49. 被引量：7
3郭宾,张冰尘.基于CAMP稀疏重建算法的并行实现[J].国外电子测量技术,2016,35(5):24-28. 被引量：5
4马琼雄,余润笙,石振宇,黄晁星,李腾龙.基于深度强化学习的水下机器人最优轨迹控制[J].华南师范大学学报（自然科学版）,2018,50(1):118-123. 被引量：10
5陈亮,梁宸,张景异,刘韵婷.Actor-Critic框架下一种基于改进DDPG的多智能体强化学习算法[J].控制与决策,2021,36(1):75-82. 被引量：23
6符小卫,徐哲,王辉.基于DDPG的无人机追捕任务泛化策略设计[J].西北工业大学学报,2022,40(1):47-55. 被引量：4
7杨傲雷,陈燕玲,徐昱琳.基于强化学习的机器人手臂仿人运动规划方法[J].仪器仪表学报,2021,42(12):136-145. 被引量：7
8杨辉,王禹,李中奇,付雅婷,谭畅.专家监督的SAC强化学习重载列车运行优化控制[J].控制理论与应用,2022,39(5):799-808. 被引量：4
9Zhen Wang,Guofa Zhang,Jing Ye,Jianhui Jiang,Fengyong Li,Yong Wang.Accurate Reliability Analysis Methods for Approximate Computing Circuits[J].Tsinghua Science and Technology,2022,27(4):729-740. 被引量：1
10张云燕,魏瑶,刘昊,杨尧.基于深度强化学习的端到端无人机避障决策[J].西北工业大学学报,2022,40(5):1055-1064. 被引量：10

引证文献4

1杜泳韬,赵岭忠,翟仲毅.基于注意力机制的信息预处理多智能体强化学习算法[J].国外电子测量技术,2024,43(3):91-97.
2张友志,王真.基于概率门模型的近似电路可靠性评估[J].国外电子测量技术,2024,43(4):48-54.
3黄兆军,曾明如.小型无人有缆遥控水下机器人智能控制方法[J].实验室研究与探索,2024,43(7):34-38.
4黄兆军.基于强化学习的小型ROV运动控制算法的研究[J].机器人技术与应用,2024(5):23-29.

1赵新宇,汪文涛,张丽丽,夏宏兵.基于改进代价函数的可重构机器人容错优化控制[J].电子测试,2022,36(19):72-75.
2孙宁侠.早期口腔运动干预在新生儿重症监护室早产儿中的应用效果[J].临床医学研究与实践,2023,8(4):171-173. 被引量：2
3彭萍.抚触对正常新生儿行为神经及智力发育的影响[J].中文科技期刊数据库（全文版）医药卫生,2021(8):166-167.
4王丽娜,周丽霞,苗娜.156例3月龄婴儿异常动作发育分析[J].中文科技期刊数据库（引文版）医药卫生,2023(4):50-53.
5苏燕.风险预警护理联合营养干预对早产儿智能发育的影响[J].保健医学研究与实践,2023,20(2):163-166.
6王丽娜.家庭指导对一例TPM2基因杂合病理变异患儿的疗效报道[J].中文科技期刊数据库（全文版）医药卫生,2021(12):394-395.
7陈坤,刘顺,金隼.数控机床几何误差的雅克比旋量建模[J].机械设计与研究,2023,39(2):139-142. 被引量：2
8王一卓,汤家明,蔚洪恩.化学遗传学技术在行为神经科学中应用的研究进展[J].解剖学杂志,2022,45(6):558-562.
9闫龙,石小娟,唐源,张顺堂.基于综合满意度的电商物流车辆路径优化[J].山东工商学院学报,2023,37(3):66-76. 被引量：1
10于跃飞,林国怀,马慧,周琪,鲁仁全.输出死区下的随机多智能体系统一致性饱和控制[J].控制与决策,2023,38(5):1249-1257. 被引量：2

电子测量与仪器学报

2023年第3期

浏览历史

内容加载中请稍等...

基于actor-critic框架的在线积分强化学习算法研究被引量：4

参考文献2

二级参考文献4

共引文献25

同被引文献22

引证文献4

相关作者

相关机构

相关主题

浏览历史

基于actor-critic框架的在线积分强化学习算法研究 被引量：4

参考文献2

二级参考文献4

共引文献25

同被引文献22

引证文献4

相关作者

相关机构

相关主题

浏览历史

基于actor-critic框架的在线积分强化学习算法研究被引量：4