基于策略迭代的脉冲系统最优控制

Discrete-Time Impulsive Optimal Control on Policy Iteration

导出

摘要针对离散时间非线性系统的最优脉冲控制问题,提出了一种基于策略迭代(PI)的自适应动态规划(ADP)算法.首先引入脉冲区间集的约束条件,将系统转换为离散时间非线性脉冲控制系统,并根据哈密顿-雅可比-贝尔曼方程得到脉冲控制下的最优性能指标函数.其次提出了一种基于PI的ADP算法解决了脉冲系统最优控制问题,并给出了脉冲系统的收敛性分析.相比于值迭代(VI)算法,PI在保证系统稳定的同时收敛速度更快.然后提出了一种策略评估算法,放宽了PI算法的初始条件,解决了初始值选取困难的问题.最后通过仿真实例验证了该算法的有效性. An adaptive dynamic programming(ADP)algorithm based on strategy iteration(PI)is proposed for optimal pulse control of discrete-time nonlinear systems.Firstly,the system is transformed into a discrete-time nonlinear pulse control system by introducing the constraint of pulse interval set,and the optimal performance index function under pulse control is obtained according to the Hamilton-Jacobi-Bellman equation.Secondly,an ADP algorithm based on PI is proposed to solve the optimal control problem of the pulse system,and the convergence analysis of the pulse system is given.Compared with the value iteration(VI)algorithm,PI converges faster while ensuring system stability.Then a strategy evaluation algorithm is proposed,which relaxes the initial conditions of PI algorithm and solves the difficult problem of initial value selection.Finally,a simulation example is given to verify the effectiveness of the proposed algorithm.

作者高洋李媛 GAO Yang;LI Yuan(School of Science,Shenyang University of Technology,Shenyang 110870)

机构地区沈阳工业大学理学院

出处《系统科学与数学》 CSCD 北大核心 2024年第11期3228-3238,共11页 Journal of Systems Science and Mathematical Sciences

基金国家自然科学基金项目(62103289)资助课题。

关键词脉冲系统策略迭代最优控制自适应动态规划 Impulsive system policy iteration optimal control adaptive dynamic programming

分类号 O232 [理学—运筹学与控制论]

引文网络
相关文献

参考文献1

1魏庆来,刘德荣,徐延才.Policy iteration optimal tracking control for chaotic systems by using an adaptive dynamic programming approach[J].Chinese Physics B,2015,24(3):87-94. 被引量：2

二级参考文献48

1Liu H, Yu H and Xiang W 2012 Chin. Phys. B 21 120505.
2Ma T and Fu J 2011 Chin. Phys. B 20 050511.
3Ma T, Fu J and Sun Y 2010 Chin. Phys. B 19 090502.
4Ma T, Zhang H anf Fu J 2008 Chin. Phys. B 17 4407.
5Yu X, Ren Z and Xu C 2014 Chin. Phys. B 23 040201.
6Zhang H, Ma T, Fu J and Tong S 2009 Chin. Phys. B 18 3751.
7Zheng Z, Zheng P and Ge H 2014 Chin. Phys. B 23 020503.
8Chen S and Lu J 2002 Chaos Soliton. Fract. 14 643.
9Zhang H, Huang W, Wang Z and Chai T 2006 Phys. Lett. A 350 363.
10Zhang H, Wang Z and Liu D 2004 Int. J. Bifur Chaos 14 3505.

共引文献1

1WEI QingLai,LIU DeRong.A novel policy iteration based deterministic Q-learning for discrete-time nonlinear systems[J].Science China Chemistry,2015,58(12):143-157. 被引量：8

1郭兴,李擎,姚其家,鲁小雅.异构无人系统协同控制研究进展[J].工程科学学报,2025,47(1):66-78.
2赵娟,徐承杰,刘琛,张荣强.离散时间多智能体系统间歇事件触发输出一致性[J].湖南工业大学学报,2025,39(2):97-102.
3李聘滨,田文龙,黄振文,滕浩,朱江峰,刘文军,魏志义.多通腔非线性脉冲压缩技术的研究进展(特邀)[J].光电技术应用,2024,39(5):1-14.
4夏童,招赫,朱书缘,张鹏磊,曹思远,王璞.高峰值功率GMN飞秒光纤激光器研究进展(特邀)[J].红外与激光工程,2024,53(10):1-18.
5周恒,任芸,吴爱斌,张振伟.基于32位微处理控制器的双余度电机控制系统设计[J].电子制作,2024,32(22):3-8.
6杨明轩,陈琳.改进YOLOv5的棉田杂草检测[J].现代电子技术,2024,47(24):60-67.
7夏正洪,何琥,吴江,陈玲,王裕林,康瑞.飞机刹车盘动片损伤程度及更换需求智能评估算法[J].中国安全科学学报,2024,34(10):88-94.
8吴若冰,路辉,朱昱坤,冀南囡.基于多时间尺度深度学习的窃电用户检测方法研究[J].电测与仪表,2024,61(12):178-184.
9徐佳.基于CCTV方法的排水管道检测技术与应用[J].工程建设与设计,2024(22):160-162.
10张曦.镇肝熄风汤联合替罗非班治疗风阳内动证急性脑梗死患者的临床效果观察[J].大医生,2024,9(24):65-68.

系统科学与数学

2024年第11期

浏览历史

内容加载中请稍等...

基于策略迭代的脉冲系统最优控制

参考文献1

二级参考文献48

共引文献1

相关作者

相关机构

相关主题

浏览历史