融合自适应评判的随机系统数据驱动策略优化

Data-driven Policy Optimization for Stochastic Systems Involving Adaptive Critic

下载PDF

导出

摘要自适应评判技术已经广泛应用于求解复杂非线性系统的最优控制问题,但利用其求解离散时间非线性随机系统的无限时域最优控制问题还存在一定局限性.本文融合自适应评判技术,建立一种数据驱动的离散随机系统折扣最优调节方法.首先,针对宽松假设下的非线性随机系统,研究带有折扣因子的无限时域最优控制问题.所提的随机系统Q-learning算法能够将初始的容许策略单调不增地优化至最优策略.基于数据驱动思想,随机系统Q-learning算法在不建立模型的情况下直接利用数据进行策略优化.其次,利用执行−评判神经网络方案,实现了随机系统Q-learning算法.最后,通过两个基准系统,验证本文提出的随机系统Q-learning算法的有效性. Adaptive critic technology has been widely employed to solve the optimal control problems of complicated nonlinear systems,but there are some limitations to solve the infinite-horizon optimal problems of discrete-time nonlinear stochastic systems.In this paper,we establish a data-driven discounted optimal regulation method for discrete-time stochastic systems involving adaptive critic technology.First,we investigate the infinite-horizon optimal problems with the discount factor for stochastic systems under the relaxed assumption.The developed stochastic Qlearning algorithm can optimize an initial admissible policy to the optimal one in a monotonically nonincreasing way.Based on the data-driven idea,the policy optimization of the stochastic Q-learning algorithm is executed without a dynamic model.Then,the stochastic Q-learning algorithm is implemented by utilizing the actor-critic neural networks.Finally,two nonlinear benchmarks are given to demonstrate the overall performance of the developed stochastic Q-learning algorithm.

作者王鼎王将宇乔俊飞 WANG Ding;WANG Jiang-Yu;QIAO Jun-Fei(Faculty of Information Technology,Beijing University of Technology,Beijing 100124;Beijing Key Laboratory of Computational Intelligence and Intelligent System,Beijing 100124;Beijing Institute of Artificial Intelligence,Beijing 100124;Beijing Laboratory of Smart Environmental Protection,Beijing 100124)

机构地区北京工业大学信息学部计算智能与智能系统北京市重点实验室北京人工智能研究院智慧环保北京实验室

出处《自动化学报》 EI CAS CSCD 北大核心 2024年第5期980-990,共11页 Acta Automatica Sinica

基金国家自然科学基金(62222301,61890930-5,62021003) 科技创新2030——“新一代人工智能”重大项目(2021ZD0112302,2021ZD0112301)资助。

关键词自适应评判设计数据驱动离散系统神经网络 Q-LEARNING 随机最优控制 Adaptive critic design data-driven discrete-time systems neural networks Q-learning stochastic optimal control

分类号 TP13 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献10

1Ding Wang,Ning Gao,Derong Liu,Jinna Li,Frank L.Lewis.Recent Progress in Reinforcement Learning and Adaptive Dynamic Programming for Advanced Control Applications[J].IEEE/CAA Journal of Automatica Sinica,2024,11(1):18-36. 被引量：4
2Teng Liu,Bin Tian,Yunfeng Ai,Li Li,Dongpu Cao,Fei-Yue Wang.Parallel Reinforcement Learning:A Framework and Case Study[J].IEEE/CAA Journal of Automatica Sinica,2018,5(4):827-835. 被引量：9
3Qinghai Miao,Yisheng Lv,Min Huang,Xiao Wang,Fei-Yue Wang.Parallel Learning:Overview and Perspective for Computational Learning Across Syn2Real and Sim2Real[J].IEEE/CAA Journal of Automatica Sinica,2023,10(3):603-631. 被引量：16
4王鼎,胡凌治,赵明明,哈明鸣,乔俊飞.未知非线性零和博弈最优跟踪的事件触发控制设计[J].自动化学报,2023,49(1):91-101. 被引量：2
5王鼎.一类离散动态系统基于事件的迭代神经控制[J].工程科学学报,2022,44(3):411-419. 被引量：5
6王鼎,赵慧玲,李鑫.基于多目标粒子群优化的污水处理系统自适应评判控制[J].工程科学学报,2024,46(5):908-917. 被引量：2
7Tianyu Wu,Shizhu He,Jingping Liu,Siqi Sun,Kang Liu,Qing-Long Han,Yang Tang.A Brief Overview of ChatGPT:The History,Status Quo and Potential Future Development[J].IEEE/CAA Journal of Automatica Sinica,2023,10(5):1122-1136. 被引量：76
8王鼎,赵明明,哈明鸣,乔俊飞.基于折扣广义值迭代的智能最优跟踪及应用验证[J].自动化学报,2022,48(1):182-193. 被引量：6
9Mingming Ha,Ding Wang,Derong Liu.Discounted Iterative Adaptive Critic Designs With Novel Stability Analysis for Tracking Control[J].IEEE/CAA Journal of Automatica Sinica,2022,9(7):1262-1272. 被引量：9
10Ding Wang,Jiangyu Wang,Mingming Zhao,Peng Xin,Junfei Qiao.Adaptive Multi-Step Evaluation Design With Stability Guarantee for Discrete-Time Optimal Learning Control[J].IEEE/CAA Journal of Automatica Sinica,2023,10(9):1797-1809. 被引量：3

二级参考文献21

1王飞跃.人工社会、计算实验、平行系统——关于复杂社会经济系统计算研究的讨论[J].复杂系统与复杂性科学,2004,1(4):25-35. 被引量：234
2SONG Rui-Zhuo XIAO Wen-Dong SUN Chang-Yin.Optimal Tracking Control for a Class of Unknown Discrete-time Systems with Actuator Saturation via Data-based ADP Algorithm[J].自动化学报,2013,39(9):1413-1420. 被引量：4
3刘德荣,李宏亮,王鼎.基于数据的自学习优化控制:研究进展与展望[J].自动化学报,2013,39(11):1858-1870. 被引量：22
4乔俊飞,王莉莉,韩红桂.基于ESN的污水处理过程优化控制[J].智能系统学报,2015,10(6):831-837. 被引量：8
5Derong Liu,Yancai Xu,Qinglai Wei,Xinliang Liu.Residential Energy Scheduling for Variable Weather Solar Energy Based on Adaptive Dynamic Programming[J].IEEE/CAA Journal of Automatica Sinica,2018,5(1):36-46. 被引量：15
6Niladri Sekhar Tripathy,Indra Narayan Kar,Kolin Paul.Suboptimal Robust Stabilization of Discrete-time Mismatched Nonlinear System[J].IEEE/CAA Journal of Automatica Sinica,2018,5(1):352-359. 被引量：1
7Ruizhuo Song,Liao Zhu.Optimal Fixed-Point Tracking Control for Discrete-Time Nonlinear Systems via ADP[J].IEEE/CAA Journal of Automatica Sinica,2019,6(3):657-666. 被引量：5
8Ding Wang,Xiangnan Zhong.Advanced Policy Learning Near-Optimal Regulation[J].IEEE/CAA Journal of Automatica Sinica,2019,6(3):743-749. 被引量：3
9王鼎.基于学习的鲁棒自适应评判控制研究进展[J].自动化学报,2019,45(6):1031-1043. 被引量：15
10Sumit Kumar Jha,Shubhendu Bhasin.Adaptive Linear Quadratic Regulator for Continuous-Time Systems With Uncertain Dynamics[J].IEEE/CAA Journal of Automatica Sinica,2020,7(3):833-841. 被引量：3

共引文献111

1卢海峰,顾春华,罗飞,丁炜超,袁野,任强.强化学习下能耗优化的虚拟机放置策略[J].计算机科学,2019,46(9):291-297. 被引量：5
2Teng Liu,Hong Wang,Bin Tian,Yunfeng Ai,Long Chen.Parallel Distance: A New Paradigm of Measurement for Parallel Driving[J].IEEE/CAA Journal of Automatica Sinica,2020,7(4):1169-1178. 被引量：1
3Lan Jiang,Hongyun Huang,Zuohua Ding.Path Planning for Intelligent Robots Based on Deep Q-learning With Experience Replay and Heuristic Knowledge[J].IEEE/CAA Journal of Automatica Sinica,2020,7(4):1179-1189. 被引量：20
4Yantao Tian,Yanbo Zhao,Yiran Shi,Xuanhao Cao,Ding-Li Yu.The Indirect Shared Steering Control Under Double Loop Structure of Driver and Automation[J].IEEE/CAA Journal of Automatica Sinica,2020,7(5):1403-1416. 被引量：10
5李斌,刘全.基于最小二乘的双权重学习法[J].计算机科学,2020,47(12):210-217. 被引量：1
6王春法,王飞跃,鲁越,李华飙,郭超.平行博物馆:新时代博物馆运营的智能管理与控制[J].智能科学与技术学报,2021,3(2):125-136. 被引量：10
7赖晨光,伍朝兵,李家曦,孙友长,胡博.并行深度强化学习的柴油机动力系统VGT智能控制[J].重庆理工大学学报（自然科学）,2022,36(6):302-308.
8王天宇,赵珺,王伟,王天鑫.基于分层粒度对比网络的钢铁燃气调度知识获取与建模[J].自动化学报,2022,48(9):2212-2222.
9王鼎,胡凌治,赵明明,哈明鸣,乔俊飞.未知非线性零和博弈最优跟踪的事件触发控制设计[J].自动化学报,2023,49(1):91-101. 被引量：2
10高爽,栾小丽,赵顺毅,刘飞.多率量测下随机跳变系统迁移交互多模型估计[J].自动化学报,2023,49(1):210-218.

1刘美,周绍生.非齐次Markovian跳变模糊系统的有限时间 H ∞控制[J].杭州电子科技大学学报（自然科学版）,2024,44(2):43-50.
2王静,王耀霞.基于模糊评判技术的储备资源优化模型及仿真试验[J].粘接,2023,50(8):189-192.
3柳雪阳,王琦.反应-扩散logistic模型前向欧拉法的数值Hopf分支[J].佛山科学技术学院学报（自然科学版）,2024,42(3):74-80.
4董敏.离散元法在矿物加工工程中的应用现状[J].中文科技期刊数据库（文摘版）工程技术,2016(8):18-18.
5陈毅俊.二叉树模型在公司理财中的应用研究[J].中文科技期刊数据库（全文版）经济管理,2016(5):225-226.
6梁旭.二阶自回归离散时间比例再保险模型的破产问题[J].中文科技期刊数据库（全文版）教育科学,2016(9):206-208.
7兰永红,邓云强.基于等价输入干扰的不确定离散时间系统预见重复控制[J].控制工程,2024,31(5):815-824.
8潘俊锋,夏永学,王书文,马文涛,张晨阳,王冰.我国深部冲击地压防控工程技术难题及发展方向[J].煤炭学报,2024,49(3):1291-1302. 被引量：5
9王琦,刘子昕,王鑫旭,李晓旭,闫承琳.木塑材料3DP打印机运动控制系统轨迹跟踪研究[J].林业工程学报,2024,9(3):127-137.
10黄博文,刘天俐.经济体制改革背景下已婚女性初育风险变迁的事件史分析[J].人口与发展,2024,30(3):38-50.

自动化学报

2024年第5期

浏览历史

内容加载中请稍等...

融合自适应评判的随机系统数据驱动策略优化

参考文献10

二级参考文献21

共引文献111

相关作者

相关机构

相关主题

浏览历史