数据驱动的策略优化控制律设计最新研究综述被引量：1

Survey of recent progress in data-driven policy optimization for controller design

导出

摘要随着通信技术和新一代人工智能的迅速发展,强化学习这一数据驱动的控制方法引起了极大的关注.本文回顾了强化学习中的一类典型方法——策略优化法——在系统控制律设计上的最新研究进展.主要讨论了其在各种重要线性最优控制问题上的收敛性及样本复杂度,例如线性二次控制、输出反馈控制、H∞控制、分布式控制等.此外,对策略优化法在网络化系统控制中的应用作了展望. With the development of communication technology and artificial intelligence,reinforcement learning(RL),as a data-driven control method,has received tremendous attention.The purpose of this survey is to provide an overview of the state-of-the-art policy optimization method for controller design,which is a typical RL method.In particular,we discuss its convergence and sample complexity in certain fundamental optimal control problems in linear systems,such as linear quadratic regulators,output feedback,H∞control,and distributed control.Additionally,we discuss some future work on the policy optimization for control systems.

作者赵斐然游科友 Feiran ZHAO;Keyou YOU(Department of Automation,Tsinghua University,Beijing 100084,China)

机构地区清华大学自动化系

出处《中国科学：信息科学》 CSCD 北大核心 2023年第6期1027-1049,共23页 Scientia Sinica(Informationis)

基金国家自然科学基金(批准号:62033006) 清华大学自主科研计划资助项目。

关键词线性系统最优控制策略梯度法强化学习数据驱动控制 linear system optimal control policy gradient method reinforcement learning data-driven control

分类号 TP273 [自动化与计算机技术—检测技术与自动化装置] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献9

1王琳,张庆杰,陈宏伟.满足LQR指标的群系统编队形成问题优化控制方法[J].航空学报,2022,43(S01):34-42. 被引量：2
2年晓红,苏赛军,潘欢.Consensus tracking protocol and formation control of multi-agent systems with switching topology[J].Journal of Central South University,2011,18(4):1178-1183. 被引量：13
3刘伟,周绍磊,祁亚辉,闫实.有向切换通信拓扑下多无人机分布式编队控制（英文）[J].控制理论与应用,2015,32(10):1422-1427. 被引量：23
4吴宇,梁天骄.基于改进一致性算法的无人机编队控制[J].航空学报,2020,41(9):167-185. 被引量：19
5田磊,董希旺,赵启伦,李清东,吕金虎,任章.异构集群系统分布式自适应输出时变编队跟踪控制[J].自动化学报,2021,47(10):2386-2401. 被引量：11
6庞文砚,范家璐,姜艺,LEWIS Frank Leroy.基于强化学习的部分线性离散时间系统的最优输出调节[J].自动化学报,2022,48(9):2242-2253. 被引量：3
7向锦武,董希旺,丁文锐,索津莉,沈林成,夏辉.复杂环境下无人集群系统自主协同关键技术[J].航空学报,2022,43(10):325-357. 被引量：16
8魏志强,翁哲鸣,化永朝,董希旺,任章.切换拓扑下异构无人集群编队-合围跟踪控制[J].航空学报,2023,44(2):252-267. 被引量：7
9马亚杰,王娟,姜斌,龚建业.一种无人机-无人车编队系统容错控制方法[J].航空学报,2023,44(8):177-190. 被引量：4

引证文献1

1杨加秀,李新凯,张宏立,王昊.切换拓扑下异构集群的强化学习时变编队控制[J].航空学报,2024,45(10):243-259.

1黄玙璠,张坤.智能控制在电力系统中的应用分析[J].电子元器件与信息技术,2023,7(3):95-98. 被引量：2
2马星.电力自动化系统中的智能技术应用[J].集成电路应用,2023,40(3):234-235.
3丁超,陈奕.智能技术在电力系统自动化中的应用[J].集成电路应用,2023,40(5):248-249. 被引量：2
4莫凡,梁丽莎.基于数据驱动的舰船通信网络异常行为检测方法[J].舰船科学技术,2023,45(10):131-134. 被引量：1
5常健.面向煤矿巡检任务的新型仿生爬线机器人关键技术[J].煤矿安全,2023,54(6):244-248.
6王海红,季祥,翟天嵩.多自由度机械臂的饱和输出反馈有限时间同步位置控制[J].控制理论与应用,2023,40(6):1079-1088. 被引量：4
7段志霞,赵娜,赵燕冰.基于t-(v,k,λ)设计构作的二元等重码及其性质[J].数学的实践与认识,2023,53(3):291-296.
8杨吉康,于晋伟,杨卫华.网络化Euler-Lagrange系统的分布式编队机动控制[J].应用数学和力学,2023,44(7):870-883.
9冀肖彤,柳丹,江克证,康逸群,陈思源,董天翔.储能型风电场一次调频容量优化与风电功率协调分配[J].电力自动化设备,2023,43(7):58-65.

中国科学：信息科学

2023年第6期

浏览历史

内容加载中请稍等...

数据驱动的策略优化控制律设计最新研究综述被引量：1

同被引文献9

引证文献1

相关作者

相关机构

相关主题

浏览历史

数据驱动的策略优化控制律设计最新研究综述 被引量：1

同被引文献9

引证文献1

相关作者

相关机构

相关主题

浏览历史

数据驱动的策略优化控制律设计最新研究综述被引量：1