基于马氏决策过程模型的动态系统学习控制:研究前沿与展望被引量：21

Learning Control of Dynamical Systems Based on Markov Decision Processes:Research Frontiers and Outlooks

下载PDF

导出

摘要基于马氏决策过程(Markov decision process,MDP)的动态系统学习控制是近年来一个涉及机器学习、控制理论和运筹学等多个学科的交叉研究方向,其主要目标是实现系统在模型复杂或者不确定等条件下基于数据驱动的多阶段优化控制.本文对基于MDP的动态系统学习控制理论、算法与应用的发展前沿进行综述,重点讨论增强学习(Reinforcement learning,RL)与近似动态规划(Approximate dynamic programming,ADP)理论与方法的研究进展,其中包括时域差值学习理论、求解连续状态与行为空间MDP的值函数逼近方法、直接策略搜索与近似策略迭代、自适应评价设计算法等,最后对相关研究领域的应用及发展趋势进行分析和探讨。 Learning control of dynamical systems based on Markov decision processes （MDPs） is an interdisciplinary research area of machine learning, control theory, and operations research. The main objective in this research area is to realize data-driven multi-stage optimal control for complex or uncertain dynamical systems. This paper presents a comprehensive survey on the theory, algorithms, and applications of MDP-based learning control of dynamical systems. Emphases are put on recent advances in the theory and methods of reinforcement learning （RL） and adaptive/approximate dynamic programming （ADP）, including temporal-difference learning theory, value function approximation for continuous state and action spaces, direct policy search, approximate policy iteration, and adaptive critic designs. Applications and the trends for future research and developments in related fields are also discussed.

作者徐昕沈栋高岩青王凯

机构地区国防科学技术大学机电工程与自动化学院自动化研究所中国科学院自动化研究所复杂系统智能管理与控制国家重点实验室美国亚利桑那大学系统与工业工程学院国防科学技术大学军事计算实验与平行系统技术研究中心

出处《自动化学报》 EI CSCD 北大核心 2012年第5期673-687,共15页 Acta Automatica Sinica

基金国家自然科学基金(61075072 90820302 60921061) 霍英东青年教师基金优选资助课题(114005) 教育部新世纪优秀人才支持计划(NCET-10-0901)资助~~

关键词学习控制 MARKOV决策过程增强学习近似动态规划机器学习自适应控制 DOI 10.3724/SP.J.1004.2012.00673

分类号 TP181 [自动化与计算机技术—控制理论与控制工程] TP13 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1孙明轩,王郸维,陈彭年.有限区间非线性系统的重复学习控制[J].中国科学：信息科学,2010,40(3):433-444. 被引量：12
2王学宁,徐昕,吴涛,贺汉根.策略梯度强化学习中的最优回报基线[J].计算机学报,2005,28(6):1021-1026. 被引量：6
3张雁冰,杭大明,马正新,曹志刚.基于再励学习的主动队列管理算法[J].软件学报,2004,15(7):1090-1098. 被引量：7
4徐昕,贺汉根.神经网络增强学习的梯度算法研究[J].计算机学报,2003,26(2):227-233. 被引量：21
5WEI Qing-Lai,ZHANG Hua-Guang,LIU De-Rong,ZHAO Yan.An Optimal Control Scheme for a Class of Discrete-time Nonlinear Systems with Time Delays Using Adaptive Dynamic Programming[J].自动化学报,2010,36(1):121-129. 被引量：17
6高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：266
7DerongLiu.Approximate Dynamic Programming for Self-Learning Control[J].自动化学报,2005,31(1):13-18. 被引量：14

二级参考文献126

1陈翰馥.Almost sure convergence of iterative learning control for stochastic systems[J].Science in China(Series F),2003,46(1):67-79. 被引量：6
2DerongLiu.Approximate Dynamic Programming for Self-Learning Control[J].自动化学报,2005,31(1):13-18. 被引量：14
3孙明轩,陈阳泉,黄宝健.非线性时滞系统的高阶迭代学习控制[J].自动化学报,1994,20(3):360-365. 被引量：11
4TANGHao YUANJi-Bin LUYang CHENGWen-Juan.Performance Potential-based Neuro-dynamic Programming for SMDPs[J].自动化学报,2005,31(4):642-645. 被引量：10
5WU Zheng-Guang,ZHOU Wu-Neng.Delay-dependent Robust Singular Systems Stabilization for Uncertain with State Delay[J].自动化学报,2007,33(7):714-718. 被引量：27
6KONG Shu-Lan,ZHANG Huan-Shui,ZHANG Zhao-Sheng,ZHANG Cheng-Hui.Joint Predictive Control of Power and Rate for Wireless Networks[J].自动化学报,2007,33(7):761-764. 被引量：7
7[1]Jacobson V, Karels MJ. Congestion avoidance and control. ACM SIGCOMM Computer Communication Review, 1988,18(4):314～329.
8[2]Floyd S, Jacobson V. Random early detection gateways for congestion avoidance. IEEE/ACM Trans. on Networking, 1993,1(4):397～413.
9[3]Floyd S. A report on some recent development in TCP congestion control. IEEE Communication Magazine, 2001,39(4):84～90.
10[4]Christiansen M, Jeffay K, Ott D, Smith FD. Tuning RED for Web traffic. In: Proc. of the ACM SIGCOMM 2000. Stockholm: ACM Press, 2000. 139～150.

共引文献332

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
8董沛武,刘微微,娄岩峰.基于遗传算法和神经网络的企业核心竞争力评价模型研究[J].兵工学报,2009,30(S1):114-118. 被引量：6
9王芳颖.非线性连续系统带有初始修正的重复学习控制方法[J].中山大学研究生学刊（自然科学与医学版）,2013,34(3):77-90.
10王学宁,徐昕,吴涛,贺汉根.策略梯度强化学习中的最优回报基线[J].计算机学报,2005,28(6):1021-1026. 被引量：6

同被引文献406

1S.N.BALAKRISHNAN.Approximate dynamic programming solutions with a single network adaptive critic for a class of nonlinear systems[J].控制理论与应用（英文版）,2011,9(3):370-380. 被引量：2
2Laura RAY.Hierarchical state-abstracted and socially augmented Q-Learning for reducing complexity in agent-based learning[J].控制理论与应用（英文版）,2011,9(3):440-450. 被引量：2
3滕靖,杨晓光.APTS下城市公交枢纽调度问题的实用优化方法研究[J].系统工程,2004,22(8):78-82. 被引量：8
4厉虹,胡兵.轮式移动机器人非完整运动规划的遗传算法[J].自动化技术与应用,2005,24(2):13-15. 被引量：5
5王飞跃,王珏.情报与安全信息学研究的现状与展望[J].中国基础科学,2005,7(2):24-29. 被引量：18
6陈奕梅,韩正之.一类非线性不确定系统的最优自适应控制[J].自动化学报,2006,32(1):54-59. 被引量：5
7齐国光,郭木河,马少平,归柽华.轮式机器人最优控制的研究[J].机器人,1996,18(1):21-27. 被引量：7
8徐瑜,危韧勇.神经网络在控制系统中的应用现状及展望[J].电脑知识与技术,2006,1(2):178-179. 被引量：8
9滕靖,杨晓光.APTS下快速公交实时控制-调度方法研究[J].系统工程理论与实践,2006,26(2):138-143. 被引量：13
10滕靖,杨晓光.APTS下公共汽车单线路实时控制方法[J].同济大学学报（自然科学版）,2006,34(6):744-747. 被引量：5

引证文献21

1仵博,郑红燕,冯延蓬.POMDPs算法复杂度对比分析研究[J].深圳职业技术学院学报,2013,12(1):3-10.
2刘德荣,李宏亮,王鼎.基于数据的自学习优化控制:研究进展与展望[J].自动化学报,2013,39(11):1858-1870. 被引量：22
3陈鑫,魏海军,吴敏,曹卫华.基于高斯回归的连续空间多智能体跟踪学习[J].自动化学报,2013,39(12):2021-2031. 被引量：2
4谭拂晓,刘德荣,关新平,罗斌.基于微分对策理论的非线性控制回顾与展望[J].自动化学报,2014,40(1):1-15. 被引量：12
5仵博,冯延蓬,孟宪军,江建举,何国坤.大数据环境下的增强学习综述[J].深圳职业技术学院学报,2014,13(3):71-75. 被引量：1
6仵博,郑红燕,冯延蓬,陈鑫.一种基于模型的可分解贝叶斯在线强化学习[J].电子学报,2014,42(7):1429-1434. 被引量：2
7曹建平,王晖,夏友清,乔凤才,张鑫.基于LDA的双通道在线主题演化模型[J].自动化学报,2014,40(12):2877-2886. 被引量：15
8马磊,张文旭,戴朝华.多机器人系统强化学习研究综述[J].西南交通大学学报,2014,49(6):1032-1044. 被引量：14
9陈春晓,陈治亚,陈维亚.基于多智能体增强学习的公交驻站控制方法[J].计算机工程与应用,2015,51(17):8-13. 被引量：6
10严求真,孙明轩.非线性不确定系统准最优学习控制[J].自动化学报,2015,41(9):1659-1668. 被引量：7

二级引证文献165

1徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：10
2王宁,韩雨晓,王雅萱,王天海,张漫,李寒.农业机器人全覆盖作业规划研究进展[J].农业机械学报,2022,53(S01):1-19. 被引量：19
3杜文风,王英奇,王辉,赵艳男,高博青,董石麟.基于边界平衡生成对抗网络的十字板式节点新构形智能生成方法[J].建筑结构学报,2022,43(S01):315-324. 被引量：3
4李林.人工智能生成内容的艺术性研究[J].大众文艺（学术版）,2020(1):98-99. 被引量：2
5王澄,刘德荣,魏庆来,赵冬斌,夏振超.带有储能设备的智能电网电能迭代自适应动态规划最优控制[J].自动化学报,2014,40(9):1984-1990. 被引量：10
6代伟,柴天佑.数据驱动的复杂磨矿过程运行优化控制方法[J].自动化学报,2014,40(9):2005-2014. 被引量：30
7贾丹丹,魏爱荣.具有执行器饱和耗散Hamilton系统的镇定分析[J].山东大学学报（工学版）,2014,44(5):20-28.
8杨明,罗艳红,王义贺.模型未知非零和博弈问题的策略迭代算法[J].东北大学学报（自然科学版）,2015,36(3):318-321. 被引量：3
9林梅金,罗飞,苏彩红,许玉格.一种新的混合智能极限学习机[J].控制与决策,2015,30(6):1078-1084. 被引量：12
10席耀一,李弼程,李天彩,黄山奇.基于词语对狄利克雷过程的时序摘要[J].自动化学报,2015,41(8):1452-1460. 被引量：3

1赵琰,邓玮,张玉艳.基于近似动态规划的神经网络控制及在电力系统中应用[J].东北电力技术,2009,30(4):10-12. 被引量：1
2齐驰,王轶.交通流模型参数的近似动态规划辨识方法[J].控制与决策,2011,26(7):1091-1095. 被引量：1
3徐安,于雷,寇英信,徐保伟,李战武.基于MDP框架的飞行器隐蔽接敌策略[J].系统工程与电子技术,2011,33(5):1063-1068. 被引量：11
4孙思雨,孙良旭,苏晓磊,赵环宇.动态环境下基于近似动态规划的分布估计算法研究[J].电脑知识与技术,2014,10(10X):7173-7176. 被引量：1
5刘德荣,李宏亮,王鼎.基于数据的自学习优化控制:研究进展与展望[J].自动化学报,2013,39(11):1858-1870. 被引量：22
6王飞,冯祖仁,胡奇英.基于马氏决策过程的概率离散事件系统最优控制[J].控制理论与应用,2007,24(6):895-901. 被引量：2
7李琦,陈晔明.近似动态规划在双容水箱预测控制中的应用[J].计算机仿真,2014,31(12):308-311. 被引量：4
8吴万国,李林林,孙良旭.多车型回程车辆调度问题的ADP算法研究[J].计算机应用研究,2013,30(7):1991-1994.
9董春利,王莉.基于粒子滤波的直接策略搜索强化学习算法研究[J].江苏科技信息,2017,34(7):71-73.
10林小峰,黄元君,宋春宁.带ε误差限的近似最优控制[J].控制理论与应用,2012,29(1):104-108. 被引量：2

自动化学报

2012年第5期

浏览历史

内容加载中请稍等...

基于马氏决策过程模型的动态系统学习控制:研究前沿与展望被引量：21

参考文献7

二级参考文献126

共引文献332

同被引文献406

引证文献21

二级引证文献165

相关作者

相关机构

相关主题

浏览历史

基于马氏决策过程模型的动态系统学习控制:研究前沿与展望 被引量：21

参考文献7

二级参考文献126

共引文献332

同被引文献406

引证文献21

二级引证文献165

相关作者

相关机构

相关主题

浏览历史

基于马氏决策过程模型的动态系统学习控制:研究前沿与展望被引量：21