概率近似正确的强化学习算法解决连续状态空间控制问题被引量：5

Probably approximately correct reinforcement learning solving continuous-state control problem

下载PDF

导出

摘要在线学习时长是强化学习算法的一个重要指标.传统在线强化学习算法如Q学习、状态–动作–奖励–状态–动作(state-action-reward-state-action,SARSA)等算法不能从理论分析角度给出定量的在线学习时长上界.本文引入概率近似正确(probably approximately correct,PAC)原理,为连续时间确定性系统设计基于数据的在线强化学习算法.这类算法有效记录在线数据,同时考虑强化学习算法对状态空间探索的需求,能够在有限在线学习时间内输出近似最优的控制.我们提出算法的两种实现方式,分别使用状态离散化和kd树(k-dimensional树)技术,存储数据和计算在线策略.最后我们将提出的两个算法应用在双连杆机械臂运动控制上,观察算法的效果并进行比较. One important factor of reinforcement learning (RL) algorithms is the online learning time. Conventional algorithms such Q-learning and state-action-reward-state-action (SARSA) can not give the quantitative analysis on the upper bound of the online learning time. In this paper, we employ the idea of probably approximately correct (PAC) and design the data-driven online RL algorithm for continuous-time deterministic systems. This class of algorithms efficiently record online observations and keep in mind the exploration required by online RL. They are capable to learn the nearoptimal policy within a finite time length. Two algorithms are developed, separately based on state discretization and kd-tree technique, which are used to store data and compute online policies. Both algorithms are applied to the two-linkmanipulator to observe the performance.

作者朱圆恒赵冬斌 ZHU Yuan-heng;ZHAO Dong-bin(State Key Laboratory of Management and Control for Complex Systems, Institution of Automation,Chinese Academy of Sciences, Beijing 100190, China)

机构地区中国科学院自动化研究所复杂系统管理与控制国家重点实验室

出处《控制理论与应用》 EI CAS CSCD 北大核心 2016年第12期1603-1613,共11页 Control Theory & Applications

基金国家自然科学基金项目(61273136 61573353 61533017 61603382) 复杂系统管理与控制国家重点实验室优秀人才基金项目资助~~

关键词强化学习概率近似正确 KD树双连杆机械臂 reinforcement learning probably approximately correct kd-tree two-link manipulator

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] TP273 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献4

1张汝波,顾国昌,刘照德,王醒策.强化学习理论、算法及应用[J].控制理论与应用,2000,17(5):637-642. 被引量：92
2高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：268
3赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：131
4蒋国飞,高慧琪,吴沧浦.Q学习算法中网格离散化方法的收敛性分析[J].控制理论与应用,1999,16(2):194-198. 被引量：9

二级参考文献131

1杨璐,洪家荣,黄梯云.用加强学习方法解决基于神经网络的时序实时建模问题[J].哈尔滨工业大学学报,1996,28(4):136-139. 被引量：2
2阎平凡.再励学习——原理、算法及其在智能控制中的应用[J].信息与控制,1996,25(1):28-34. 被引量：30
3MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-levelcontrol through deep reinforcement learning [J]. Nature, 2015,518(7540): 529 – 533.
4SILVER D, HUANG A, MADDISON C, et al. Mastering the gameof Go with deep neural networks and tree search [J]. Nature, 2016,529(7587): 484 – 489.
5AREL I. Deep reinforcement learning as foundation for artificialgeneral intelligence [M] //Theoretical Foundations of Artificial GeneralIntelligence. Amsterdam: Atlantis Press, 2012: 89 – 102.
6TEAAURO G. TD-Gammon, a self-teaching backgammon program,achieves master-level play [J]. Neural Computation, 1994,6(2): 215 – 219.
7SUTTON R S, BARTO A G. Reinforcement Learning: An Introduction[M]. Cambridge MA: MIT Press, 1998.
8KEARNS M, SINGH S. Near-optimal reinforcement learning inpolynomial time [J]. Machine Learning, 2002, 49(2/3): 209 – 232.
9KOCSIS L, SZEPESVARI C. Bandit based Monte-Carlo planning[C] //Proceedings of the European Conference on MachineLearning. Berlin: Springer, 2006: 282 – 293.
10LITTMAN M L. Reinforcement learning improves behaviour fromevaluative feedback [J]. Nature, 2015, 521(7553): 445 – 451.

共引文献474

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：45
2项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
3舒忠.基于深度学习的图像样本标签赋值校正算法实现[J].数字印刷,2019(4):38-45. 被引量：2
4安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
5丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
6王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
7李徐,张帆.受强化学习思想启发的一种结构优化算法[J].智能计算机与应用,2022,12(5):136-140. 被引量：1
8马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
9赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
10孙方平,符秀辉.复杂环境下机器人的行为学习研究[J].仪器仪表学报,2006,27(z3):1982-1983. 被引量：2

同被引文献18

1段勇,杨淮清,崔宝侠,徐心和.强化学习在足球机器人基本动作学习中的应用[J].机器人,2008,30(5):453-459. 被引量：6
2马耀飞,龚光红,彭晓源.基于强化学习的航空兵认知行为模型[J].北京航空航天大学学报,2010,36(4):379-383. 被引量：14
3张汝波,周宁,顾国昌,张国印.基于强化学习的智能机器人避碰方法研究[J].机器人,1999,21(3):204-209. 被引量：23
4谢光强,章云.多智能体系统协调控制一致性问题研究综述[J].计算机应用研究,2011,28(6):2035-2039. 被引量：28
5周思羽,吴文海,张楠,张靖.自主空战机动决策方法综述[J].航空计算技术,2012,42(1):27-31. 被引量：27
6张汝波,顾国昌,刘照德,王醒策.强化学习理论、算法及应用[J].控制理论与应用,2000,17(5):637-642. 被引量：92
7陈忠泽,林良明,颜国正.基于MAS(Multi-AgentSystem)的多机器人系统:协作多机器人学发展的一个重要方向[J].机器人,2001,23(4):368-373. 被引量：20
8刘全,肖飞,傅启明,伏玉琛,周小科,朱斐.基于自适应归一化RBF网络的Q-V值函数协同逼近模型[J].计算机学报,2015,38(7):1386-1396. 被引量：9
9张润,王永滨.机器学习及其算法和发展研究[J].中国传媒大学学报（自然科学版）,2016,23(2):10-18. 被引量：133
10赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：131

引证文献5

1曾纪钧,梁哲恒.监督式强化学习在路径规划中的应用研究[J].计算机应用与软件,2018,35(10):185-188. 被引量：7
2唐振韬,邵坤,赵冬斌,朱圆恒.深度强化学习进展:从AlphaGo到AlphaGo Zero[J].控制理论与应用,2017,34(12):1529-1546. 被引量：92
3孙楚,赵辉,王渊,周欢,韩瑾.基于强化学习的无人机自主机动决策方法[J].火力与指挥控制,2019,44(4):142-149. 被引量：25
4JI Xiukun,HAI Jintao,LUO Wenguang,LIN Cuixia,XIONG Yu,OU Zengkai,WEN Jiayan.Obstacle Avoidance in Multi-Agent Formation Process Based on Deep Reinforcement Learning[J].Journal of Shanghai Jiaotong university(Science),2021,26(5):680-685. 被引量：1
5刘健,赵恒一.基于自生成专家样本的探索增强算法[J].控制理论与应用,2023,40(3):485-492.

二级引证文献124

1姚红革,王诚,喻钧,白小军,李蔚.复杂卫星图像中的小目标船舶识别[J].遥感学报,2020,24(2):116-125. 被引量：16
2卢喜丰,王新军,白晓明,何风,吕勇波,李柄锦.基于BP神经网络和遗传算法的核级管道力学性能优化研究[J].科技视界,2023(16):138-144.
3傅启明,吴少波,戴大东,杨正霞,陈建平,吴宏杰.一种基于迁移深度强化学习的建筑能耗预测方法[J].计算机应用研究,2020,37(S01):92-94. 被引量：7
4高佳明,张丽,蒋梅.个税改革下资源型省份家庭金融资产投资决策研究[J].金融发展评论,2024(3):80-95.
5高志强,张荣荣.面向战术边缘的联合智能体系设计[J].火箭军工程大学学报,2021(3):19-23.
6庄宝玲,陈文列.偶发分枝杆菌的超微结构初步观察[J].福建医药杂志,2000,22(1):181-182. 被引量：2
7程乐峰,余涛,张孝顺,殷林飞.机器学习在能源与电力系统领域的应用和展望[J].电力系统自动化,2019,43(1):15-31. 被引量：119
8朱斐,吴文,刘全,伏玉琛.一种最大置信上界经验采样的深度Q网络方法[J].计算机研究与发展,2018,55(8):1694-1705. 被引量：14
9朱程斌.论人工智能法人人格[J].电子知识产权,2018(9):12-21. 被引量：24
10杨鸿杰,张君毅.基于强化学习的智能干扰算法研究[J].电子测量技术,2018,41(20):49-54. 被引量：17

1刘兴占,张令波,孙富春.柔性双连杆机械臂末端振动测量的研究[J].光学技术,2000,26(3):241-243. 被引量：1
2熊涛,齐乃明,宋志国.双连杆机械臂自抗扰控制器设计[J].哈尔滨工业大学学报,2011,43(5):131-134. 被引量：2
3赵杭波.双连杆机械臂的动力学建模[J].电子制作,2013,21(15):52-52. 被引量：1
4王寅,戎成.船员在线考试系统开发与应用[J].浙江交通职业技术学院学报,2006,7(3):34-37.
5李磊,彭勇.基于云模型的异常挖掘算法[J].微电子学与计算机,2013,30(8):82-85.
6王昌征,毛剑琳,付丽霞,郭宁,曲蔚贤.几何学概率的无线传感器网络能耗估计模型[J].传感器与微系统,2016,35(12):37-40. 被引量：3
7ZHUKAU ALIAKSEI.双连杆机械臂动力学参数估计模型[J].科技资讯,2015,13(13):248-250.
8袁祖强,王鑫磊.基于Simulink的二杆机械臂的运动学仿真[J].机械传动,2009,33(6):67-70. 被引量：2
9吴玉香,王灏,毛宗源.机器人间接自适应模糊控制器及其应用[J].控制理论与应用,2002,19(6):860-864. 被引量：6
10李晓光,李元春,陆佑方.柔性双连杆机械臂脉冲力矩控制的数值仿真和实验研究[J].吉林工业大学学报,1999,29(1):75-80. 被引量：1

控制理论与应用

2016年第12期

浏览历史

内容加载中请稍等...

概率近似正确的强化学习算法解决连续状态空间控制问题被引量：5

参考文献4

二级参考文献131

共引文献474

同被引文献18

引证文献5

二级引证文献124

相关作者

相关机构

相关主题

浏览历史

概率近似正确的强化学习算法解决连续状态空间控制问题 被引量：5

参考文献4

二级参考文献131

共引文献474

同被引文献18

引证文献5

二级引证文献124

相关作者

相关机构

相关主题

浏览历史

概率近似正确的强化学习算法解决连续状态空间控制问题被引量：5