基于非策略Q学习方法的两个个体优化控制被引量：2

Two-player Optimization Control Based on Off-policy Q-learning Algorithm

下载PDF

导出

摘要针对线性离散时间系统的非零和博弈问题,提出一种非策略Q学习算法。首先,提出非零和博弈优化问题,并且严格证明根据每个个体性能指标定义的值函数为线性二次型。然后,基于动态规划和Q学习方法,给出非策略Q学习算法,得到非零和博弈的近似最优解,实现系统的全局纳什均衡。此算法不要求系统模型参数已知,完全利用可测数据学习纳什均衡解。最后,算例仿真验证了方法的有效性。 In this paper,an off-policy Q-learning algorithm is proposed for solving non-zero sum game problems of linear discrete-time systems.First,the non-zero sum game problem is proposed,and the value function defined according to the performance index of each player is strictly proved to be linear quadratic.Then,based on the dynamic programming and Q-learning method,an off-policy Q-learning algorithm is developed,and the approximate optimal solution of the non-zero sum game is obtained to realize the global Nash equilibrium of the system.This algorithm does not require the system model parameters to be known a priori,and fully utilizes measurable data to learn the Nash equilibrium solution.Finally,the simulation results are given to show the effectiveness of the proposed method.

作者肖振飞李金娜 XIAO Zhen-fei;LI Jin-na(School of Information and Control Engineering,Liaoning Petrochemical University,Fushun 113001,China)

机构地区辽宁石油化工大学信息与控制工程学院

出处《控制工程》 CSCD 北大核心 2022年第10期1874-1880,共7页 Control Engineering of China

基金国家自然科学基金资助项目(62073158,61673280) 辽宁省重点领域开放项目(2019-KF-03-06) 辽宁省教育厅基本科研项目(LJKZ0401)。

关键词自适应动态规划非策略Q学习非零和博弈纳什均衡 Adaptive dynamic programming off-policy Q-learning non-zero sum game Nash equilibrium

分类号 TP13 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献21

1张彪,张超,段皓然,马芸婷,李建军,崔玲丽.基于协整分析的风电机组状态监测方法[J].机械设计与研究,2020,36(1):185-189. 被引量：5
2狄豪,孙文磊,武玉柱.EEMD结合概率神经网络的风力机轴承故障诊断研究[J].机械设计与制造,2020(6):105-108. 被引量：8
3周春雷,于瑞.基于叶根载荷的风力发电机组风剪切强度分析[J].机械设计与研究,2020,36(4):220-224. 被引量：3
4赵登利,陈孝旭,徐浩,李方义,王黎明,聂延艳.基于阶次分析的非平稳工况下风力发电机组齿轮箱故障诊断[J].机械传动,2020,44(12):141-145. 被引量：5
5梁星星,冯旸赫,马扬,程光权,黄金才,王琦,周玉珍,刘忠.多Agent深度强化学习综述[J].自动化学报,2020,46(12):2537-2557. 被引量：34
6孔松涛,刘池池,史勇,谢义,王堃.深度强化学习在智能制造中的应用展望综述[J].计算机工程与应用,2021,57(2):49-59. 被引量：14
7张宇献,郑研,钱小毅,MOHAMMED Gendeel.基于混合输入模糊神经网络的风力发电机异常监测[J].控制工程,2021,28(4):799-807. 被引量：5
8胡璇,李春,叶柯华.灰狼算法优化支持向量机在风力机齿轮箱故障诊断中的应用[J].机械强度,2021,43(5):1026-1034. 被引量：15
9胡璇,李春,叶柯华.改进经验小波变换在风力机齿轮箱故障诊断中的应用[J].机械强度,2022,44(2):294-301. 被引量：7
10王一博,韩巧丽,张曦文,吴成龙,杨敏.基于机器视觉的风力机叶片损伤检测系统[J].科学技术与工程,2022,22(12):4879-4886. 被引量：6

引证文献2

1卢国强.基于增量Q学习的在线优化控制算法[J].汽车实用技术,2023,48(15):165-171.
2李玥,杨竣辉.风力发电机组的非侵入式机械故障检测与诊[J].机械设计与研究,2023,39(6):248-254.

1郝立超,刘洋,刘守恒,姜展鹏.基于自适应动态规划的SMES调频控制策略研究[J].东北电力技术,2022,43(10):22-27.
2崔艾东,赵国华.MCU内部DAC修调电路设计及其修调方法[J].微处理机,2022,43(5):14-16.
3李丽,孟晓华.一类线性离散时间系统的预见控制器设计[J].应用数学,2022,35(4):745-755.
4刘利平.个人信息侵权法保护的价值与理据新论——基于大数据悖论的分析视角[J].重庆大学学报（社会科学版）,2022,28(5):221-234. 被引量：2
5张文钧,蒋良孝,张欢.基于特征增广的生成–判别混合模型构建方法[J].中国科学：信息科学,2022,52(10):1792-1807. 被引量：1

控制工程

2022年第10期

浏览历史

内容加载中请稍等...

基于非策略Q学习方法的两个个体优化控制被引量：2

同被引文献21

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于非策略Q学习方法的两个个体优化控制 被引量：2

同被引文献21

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于非策略Q学习方法的两个个体优化控制被引量：2