离散非线性零和博弈的事件驱动最优控制方案被引量：2

Event-triggered optimal control scheme for discrete-time nonlinear zero-sum games

下载PDF

导出

摘要在求解离散非线性零和博弈问题时,为了在有效降低网络通讯和控制器执行次数的同时保证良好的控制效果,本文提出了一种基于事件驱动机制的最优控制方案.首先,设计了一个采用新型事件驱动阈值的事件驱动条件,并根据贝尔曼最优性原理获得了最优控制对的表达式.为了求解该表达式中的最优值函数,提出了一种单网络值迭代算法.利用一个神经网络构建评价网.设计了新的评价网权值更新规则.通过在评价网、控制策略及扰动策略之间不断迭代,最终获得零和博弈问题的最优值函数和最优控制对.然后,利用Lyapunov稳定性理论证明了闭环系统的稳定性.最后,将该事件驱动最优控制方案应用到了两个仿真例子中,验证了所提方法的有效性. In order to reduce the network communication and controller execution frequency while guarantee a desired control performance, an event-triggered optimal control scheme is proposed for solving the optimal control pair of discretetime nonlinear zero-sum games in this paper. Firstly, an event-triggered condition with new event-triggered threshold is designed. The expression of the optimal control pair is obtained based on the Bellman optimality principle. Then, a single network value iteration algorithm is proposed to solve the optimal value function in this expression. A neural network is used to construct the critic network. Novel weight update rule of the critic network is derived. Through the iteration between the critic network, the control policy and the disturbance policy, the optimal value function and the optimal control pair can be solved. Further, the Lyapunov theory is used to prove the stability of the event-triggered closed-loop system.Finally, the event-triggered optimal control mechanism is applied to two examples to verify its effectiveness.

作者张欣薄迎春崔黎黎 ZHANG Xin;BO Ying-chun;CUI Li-li(College of Information and Control Engineering,China University of Petroleum,Qingdao Shandong 266580,China;Sofeware College,Shenyang Normal University,Shenyang Liaoning 110034,China)

机构地区中国石油大学(华东)信息与控制工程学院沈阳师范大学科信软件学院

出处《控制理论与应用》 EI CAS CSCD 北大核心 2018年第5期619-626,共8页 Control Theory & Applications

基金山东省自然科学基金项目(BS2015DX009) 国家自然科学基金项目(61703289)资助~~

关键词博弈论事件驱动自适应动态规划最优控制 game theory event-triggered adaptive dynamic programming optimal control

分类号 TP273 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献4

1屈秋霞,罗艳红,张化光.针对时变轨迹的非线性仿射系统的鲁棒近似最优跟踪控制[J].控制理论与应用,2016,33(1):77-84. 被引量：5
2梁苑,戚国庆,李银伢,盛安冬.一类光电跟踪系统中事件触发机制的设计及应用[J].控制理论与应用,2017,34(10):1328-1338. 被引量：2
3富月,柴天佑.具有未知动态的线性系统二人零和博弈问题在线学习方案[J].控制理论与应用,2015,32(2):196-201. 被引量：2
4Kyriakos G.Vamvoudakis.Event-Triggered Optimal Adaptive Control Algorithm for Continuous-Time Nonlinear Systems[J].IEEE/CAA Journal of Automatica Sinica,2014,1(3):282-293. 被引量：8

二级参考文献36

1Draguna VRABIE,Frank LEWIS.Adaptive dynamic programming for online solution of a zero-sum differential game[J].控制理论与应用（英文版）,2011,9(3):353-360. 被引量：10
2KLEINMAN D. On an iterative technique for Riccati equation com- putations [J]. IEEE Transactions on Automatic Control, 1968, 13(1): 114- 115.
3FENG Y, ANDERSON B D, ROTKOWITZ M. A game theoretic al- gorithm to compute local stabilizing solutions to HJBI equations in nonlinear Hoo control [J]. Automatica 2009, 45(4): 881 - 888.
4VAN DER SCHAFT AJ. L2-gain analysis of nonlinear systems and nonlinear state feedback Ho control [J]. IEEE Transactions on Au- tomatic Control, 1992, 37(6): 770 - 784.
5ABU-KHALAF M, LEWIS F L. Neurodynamic programming and zero-sum games for constrained control systems [J]. IEEE Transac- tions on Neural Networks, 2008, 19(7): 1243 - 1252.
6ABU-KHALAF M, LEWIS F L, HUANG J. Policy iterations on the Hamilton-Jacobi-Isaacs equation for Ha state feedback control with input saturation [J]. IEEE Transactions on Automatic Control, 2006, 51(12): 1989- 1995.
7VAMVOUDAKIS, K G, LEWIS F L. Online solution of nonlinear two-player zero-sum games using synchronous policy iteration [J]. International Journal of Robust and Nonlinear Control, 2012, 22( 13): 1460- 1483.
8WU H N, LUO B. Simultaneous policy update algorithms for learn- ing the solution of linear continuous-time Hoo state feedback con- trol [J]. Information Sciences, 2013, 222:472 -485.
9LI H L, LIU D R, WANG D. Integral reinforcement learning for linear continuous-time zero-sum games with completely unknown dynam- ics [J]. IEEE Transactions on Automation Science and Engineering, 2014, 11(3): 706 - 714.
10LEWI F L, VRABIE D L, SYRMOS V L. Optimal Control [M]. New Jersey: Wiley, 2012.

共引文献13

1程瑞锋,刘卫东,高立娥,康智强.基于连续时间广义预测校正的水下非线性追踪博弈控制[J].物理学报,2018,67(5):28-36. 被引量：2
2张欣,薄迎春.离散非线性系统的事件驱动最优控制[J].沈阳师范大学学报（自然科学版）,2018,36(4):318-323.
3邓云,李显圣,卢善勇.基于信息融合的光电跟踪系统精度提高方法[J].激光杂志,2019,40(4):184-187. 被引量：1
4安航,鲜斌.无人直升机的姿态增强学习控制设计与验证[J].控制理论与应用,2019,36(4):516-524. 被引量：9
5陈燕妮,刘春生,孙景亮.基于自适应最优控制的有限时间微分对策制导律[J].控制理论与应用,2019,36(6):877-884. 被引量：9
6朱萌萌,宋运忠.基于勒贝格采样的非线性系统优化控制[J].复杂系统与复杂性科学,2019,16(1):83-93.
7王鼎.基于学习的鲁棒自适应评判控制研究进展[J].自动化学报,2019,45(6):1031-1043. 被引量：15
8刘丽缤,游星星,高小平.具有混合时滞的四元数神经网络全局同步性控制[J].控制理论与应用,2019,36(8):1360-1368. 被引量：4
9Lu DONG,Xin YUAN,Changyin SUN.Event-triggered receding horizon control via actor-critic design[J].Science China(Information Sciences),2020,63(5):127-141. 被引量：5
10王丽,蔡锁宁.刚体空间定位问题的最优控制研究[J].机械制造与自动化,2020,49(3):198-201.

同被引文献32

1曾声奎,Michael G.Pecht,吴际.故障预测与健康管理(PHM)技术的现状与发展[J].航空学报,2005,26(5):626-632. 被引量：279
2程志君,郭波.基于半Markov决策过程的劣化系统检测与维修优化模型[J].自动化学报,2007,33(10):1101-1104. 被引量：10
3朱琳,陈杰,陈文颉,邓方.基于模糊概率符号有向图的复杂系统故障诊断[J].北京理工大学学报,2007,27(11):969-973. 被引量：4
4王岱青,丁建国,白英彩.网络故障管理的贝叶斯模型参数学习[J].计算机应用与软件,2008,25(4):158-159. 被引量：2
5宋辉,李昌平,蔡忠春,宋文波.基于贝叶斯网络的故障诊断与维修决策研究[J].航空维修与工程,2011(1):32-34. 被引量：2
6钱成,曹进德,杨夏竹.基于社会影响模型的观点演化规律研究[J].系统工程学报,2010,25(6):755-760. 被引量：11
7胡道生,常健永.基于模糊综合评判的军事装备维修费绩效管理评估[J].兵工自动化,2012,31(3):35-37. 被引量：9
8谢文俊,肖蕾.基于EMD功率谱方法的机电作动系统早期故障特征提取[J].测控技术,2012,31(10):29-32. 被引量：3
9郭驰名,郭波,王文彬,彭锐.非周期不完全检测下的维修优化[J].国防科技大学学报,2013,35(4):176-181. 被引量：4
10杜蓉,於志文,刘振鲁,郭斌.基于豆瓣同城活动的线上线下社交影响研究[J].计算机学报,2014,37(1):238-245. 被引量：14

引证文献2

1梁思远,周金浛,高占宝,于劲松,宋悦,张健.机电系统健康状态预测和维修决策的双向优化方法[J].仪器仪表学报,2023,44(1):131-142. 被引量：2
2吴功兴,琚春华,邹慧媛.基于并行约束策略的热点舆情协同控制方法[J].系统科学与数学,2024,44(2):425-441.

二级引证文献2

1佘博,梁伟阁,秦奋起,董海迪.基于双识别器对抗的开放域自适应故障诊断方法[J].仪器仪表学报,2023,44(7):325-334.
2鹿广志,李敬兆,张金伟.基于ICEEMDAN模糊熵与Bi-LSTM的工业设备健康状态预测[J].机床与液压,2024,52(7):214-219.

1崔黎黎,张勇,张欣.非线性零和微分对策的事件触发自适应动态规划算法[J].控制理论与应用,2018,35(5):610-618. 被引量：4
2周平.基于SEAIJR模型的流感最优控制策略研究[J].钦州学院学报,2018,33(3):47-52.
3何婧.手机自助买单服务与顾客满意度实证研究[J].合作经济与科技,2018,0(17):104-106.
4安存斌,陈慧琴,王丽霞.一类离散非线性时滞人口模型的解的有界性与渐近性[J].山西大同大学学报（自然科学版）,2018,34(4):22-23.
5林巧,李旻朔.基于分层学习的自适应动态规划[J].人工智能与机器人研究,2017,6(3):91-96.
6梅生伟,魏韡,刘锋.电力系统控制与决策中的博弈问题—–工程博弈论初探[J].控制理论与应用,2018,35(5):578-587. 被引量：12
7王飞跃,魏庆来.智能控制:从学习控制到平行控制[J].控制理论与应用,2018,35(7):939-948. 被引量：26
8赵海荣,吴万敏.传统型旅行社自主创新能力评价实证研究[J].成都工业学院学报,2018,21(2):95-99.
9卢晓民.初中科学复习增效漫谈[J].中华少年,2018,0(8):8-9.
10李新战.基于改进Adaboost算法的人脸检测方法[J].科技经济导刊,2018(18):26-26. 被引量：3

控制理论与应用

2018年第5期

浏览历史

内容加载中请稍等...

离散非线性零和博弈的事件驱动最优控制方案被引量：2

参考文献4

二级参考文献36

共引文献13

同被引文献32

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

离散非线性零和博弈的事件驱动最优控制方案 被引量：2

参考文献4

二级参考文献36

共引文献13

同被引文献32

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

离散非线性零和博弈的事件驱动最优控制方案被引量：2