一种解决连续空间问题的真实在线自然梯度AC算法被引量：5

True Online Natural Actor-Critic Algorithm for the Continuous Space Problem

下载PDF

导出

摘要策略梯度作为一种能够有效解决连续空间决策问题的方法得到了广泛研究,但由于在策略估计过程中存在较大方差,因此,基于策略梯度的方法往往受到样本利用率低、收敛速度慢等限制.针对该问题,在行动者-评论家(actor-critic,简称AC)算法框架下,提出了真实在线增量式自然梯度AC(true online incremental natural actor-critic,简称TOINAC)算法.TOINAC算法采用优于传统梯度的自然梯度,在真实在线时间差分(true online time difference,简称TOTD)算法的基础上,提出了一种新型的前向观点,改进了自然梯度行动者-评论家算法.在评论家部分,利用TOTD算法高效性的特点来估计值函数;在行动者部分,引入一种新的前向观点来估计自然梯度,再利用资格迹将自然梯度估计变为在线估计,提高了自然梯度估计的准确性和算法的效率.将TOINAC算法与核方法以及正态策略分布相结合,解决了连续空间问题.最后,在平衡杆、Mountain Car以及Acrobot等连续问题上进行了仿真实验,验证了算法的有效性. Policy gradient methods have been extensively studied as a solution to the continuous space control problem. However, due to the presence of high variance in the gradient estimation, policy gradient based methods are restricted by low sample data utilization and slow convergence. Aiming at solving this problem, utilizing the framework of actor-critic algorithm, a true online incremental natural actor-critic（TOINAC） algorithm, which takes advantage of the natural gradient that is superior to conventional gradient, and is based on true online time difference（TOTD）, is proposed. In the critic part of TOINAC algorithm, the efficiency of TOTD is adopted to estimate the value function, and in the actor part of TOINAC algorithm, a novel forward view is introduced to compute and estimate natural gradient. Then, eligibility traces are utilized to turn natural gradient into online estimation, thereby improving the accuracy of natural gradient and efficiency of the method. The TOINAC algorithm is used to integrate with the kernel method and normal distribution policy to tackle the continuous space problem. The simulation tests on cart pole, Mountain Car and Acrobot, which are classical benchmark tests for continuous space problem, verify the effeteness of the algorithm.

作者朱斐朱海军刘全陈冬火伏玉琛

机构地区苏州大学计算机科学与技术学院江苏省计算机信息处理技术重点实验室(苏州大学) 符号计算与知识工程教育部重点实验室(吉林大学) 常熟理工学院计算机科学与工程学院

出处《软件学报》 EI CSCD 北大核心 2018年第2期267-282,共16页 Journal of Software

基金国家自然科学基金(61303108 61373094 61472262) 江苏省高校自然科学研究项目(17KJA520004) 符号计算与知识工程教育部重点实验室(吉林大学)资助项目(93K172014K04) 苏州市应用基础研究计划工业部分(SYG201422) 高校省级重点实验室(苏州大学)项目(KJS1524) 中国国家留学基金(201606920013)~~

关键词策略梯度自然梯度行动者-评论家真实在线TD 核方法 Policy gradient methods extensively studied continuous space control problem utilized turn natural gradient online estimation thereby improving ccuracy natural gradient

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献1

1朱斐,刘全,傅启明,伏玉琛.一种用于连续动作空间的最小二乘行动者-评论家方法[J].计算机研究与发展,2014,51(3):548-558. 被引量：9

二级参考文献16

1Sutton R S,Barto A G. Reinforcement Learning:An Introduction[M].Cambridge,MA:MITPress,1998.
2Sutton R S,Modayil J,Delp M. A scalable real-time architecture for learning knowledge from unsupervised sensorimotor interaction[A].Richland,SC:International Foundation for Autonomous Agents and Multiagent Systems,2011.761-768.
3Silver D,Sutton R S,Müller M. Temporal-difference search in computer Go[J].Machine Learning,2012,(02):183-219.
4Sutton R S,McAllester D,Singh S. Policy gradient methods for reinforcement learning with function approximation[A].Cambridge,MA:The MIT Press,2000.1057-1063.
5Jan P,Stefan S. Natural actor critic[J].NEUROCOMPUTING,2008,(07):1180-1190.
6Jan P,Vijayakumar S,Stefan S. Reinforcement learning for humanoid robotics[A].Piscataway,NJ:IEEE,2003.1-20.
7Degris T,Pilarski P M,Sutton R S. Model-free reinforcement learning with continuous action in practice[A].Piscataway,NJ:IEEE,2012.2177-2182.
8van Hasselt H,Wiering M. Reinforcement learning in continuous action spaces[A].Piscataway,NJ:IEEE,2007.272-279.
9van Hasselt H. Reinforcement Learning:State of the Art[M].Berlin:Springer-Verlag,2007.207-251.
10Busoniu L,Babuska R,De Schutter B. Reinforcement Learning and Fynamic Programming Using Function Approximators[M].New York:CRC Press,2010.

共引文献8

1杨金鸿,谭斌,皇甫立,熊璋.一种基于联合神经网络的连续空间行动者评论家学习方法[J].智能安全,2022,1(2):19-25.
2朱斐,许志鹏,刘全,伏玉琛,王辉.基于可中断Option的在线分层强化学习方法[J].通信学报,2016,37(6):65-74. 被引量：4
3朱斐,刘全,傅启明,陈冬火,王辉,伏玉琛.一种不稳定环境下的策略搜索及迁移方法[J].电子学报,2017,45(2):257-266. 被引量：3
4唐丽丽,朱海军,朱斐.一种基于核的在线策略梯度算法[J].新疆大学学报（自然科学版）,2018,35(2):209-216.
5陈建平,何超,刘全,吴宏杰,胡伏原,傅启明.增强型深度确定策略梯度算法[J].通信学报,2018,39(11):106-115. 被引量：9
6曲明哲.基于替代迹的蜂窝网信道分配Actor-Critic算法[J].计算机应用研究,2018,35(4):1213-1216. 被引量：1
7白辰甲,刘鹏,赵巍,唐降龙.基于TD-error自适应校正的深度Q学习主动采样方法[J].计算机研究与发展,2019,56(2):262-280. 被引量：12
8杨思,李思童,张进东,白羽.高速光通信激光器带宽模型改进与并行计算优化[J].山东大学学报（工学版）,2019,49(1):17-22. 被引量：1

同被引文献60

1张政馗,庞为光,谢文静,吕鸣松,王义.面向实时应用的深度学习研究综述[J].软件学报,2020(9):2654-2677. 被引量：36
2葛运建,张建军,戈瑜,吴仲城,高理富.无所不在的传感与机器人感知[J].自动化学报,2002,28(S1):125-133. 被引量：14
3刘金琨,孙富春.滑模变结构控制理论及其算法研究与进展[J].控制理论与应用,2007,24(3):407-418. 被引量：574
4王旭东,邵惠鹤.RBF神经网络理论及其在控制中的应用[J].信息与控制,1997,26(4):272-284. 被引量：178
5陈学松,杨宜民.基于递推最小二乘法的多步时序差分学习算法[J].计算机工程与应用,2010,46(8):52-55. 被引量：5
6袁健,唐功友.基于扩展卡尔曼滤波的移动机器人变结构线性化复合跟踪控制[J].信息与控制,2010,39(6):749-754. 被引量：6
7程玉虎,冯涣婷,王雪松.基于状态-动作图测地高斯基的策略迭代强化学习[J].自动化学报,2011,37(1):44-51. 被引量：6
8闵华清,曾嘉安,罗荣华,朱金辉.一种状态自动划分的模糊小脑模型关节控制器值函数拟合方法[J].控制理论与应用,2011,28(2):256-260. 被引量：3
9程玉虎,冯涣婷,王雪松.基于参数探索的期望最大化策略搜索[J].自动化学报,2012,38(1):38-45. 被引量：4
10罗熊,黎江,孙增圻.回声状态网络的研究进展[J].北京科技大学学报,2012,34(2):217-222. 被引量：28

引证文献5

1景栋盛,杨钰,薛劲松,朱斐,吴文.基于最优初始值Q学习的电力信息网络防御策略学习算法[J].计算机与现代化,2018(11):18-22. 被引量：2
2祁文凯,桑国明.基于延迟策略的最大熵优势演员评论家算法[J].小型微型计算机系统,2020,41(8):1656-1664. 被引量：1
3司彦娜,普杰信,孙力帆.近似强化学习算法研究综述[J].计算机工程与应用,2022,58(8):33-44. 被引量：5
4黄志刚,刘全,张立华,曹家庆,朱斐.深度分层强化学习研究与发展[J].软件学报,2023,34(2):733-760. 被引量：5
5谢正泰,樊佳亮,刘梅,金龙.基于神经网络的机器人学习与控制:回顾与展望[J].信息与控制,2023,52(1):37-58. 被引量：5

二级引证文献18

1尚智婕,程杰,黄星杰.刍议信息网络系统攻击技术[J].大众标准化,2019,0(16):87-88.
2刘林鹏,朱建全,陈嘉俊,叶汉芳.基于柔性策略-评价网络的微电网源储协同优化调度策略[J].电力自动化设备,2022,42(1):79-85. 被引量：15
3蒋美英,郑山红.基于深度强化学习TD3算法的投资组合管理[J].信息技术与信息化,2022(9):177-180.
4黄艺驰,梁爽,姜红,陈敏璠,刘颖.拉曼光谱结合机器学习对面巾纸类物证的分类研究[J].实验与分析,2023,1(1):61-65.
5栗军伟,刘全,徐亚鹏.基于互信息优化的Option-Critic算法[J].计算机科学,2024,51(2):252-258.
6赵若涵,温树峰,王甜甜,陈泱吟.基于强化学习的电力通信网路由配置优化方法[J].通信电源技术,2023,40(23):97-99.
7王磊,胡国,吴海,谭阔,周成,朱亚军.基于分层深度强化学习的分布式能源系统多能协同优化方法[J].电力系统自动化,2024,48(1):67-76. 被引量：1
8李思敏,产青青,金鑫,杨晶,路恒通,张家旋,碗莹,杨一帆.机器学习在水务行业中的应用现状与发展前景[J].水电能源科学,2024,42(3):43-48. 被引量：2
9张丽娟.机器人系统的故障检测与诊断研究[J].现代制造技术与装备,2024,60(2):16-18.
10宋丽君,周紫瑜,李云龙,侯佳杰,何星.改进Q-Learning的路径规划算法研究[J].小型微型计算机系统,2024,45(4):823-829.

1刘司,付敏.共享资源视野下高校微营销模式研究[J].现代商贸工业,2017,38(29):66-67.
2Michael Zakkour.TRUE TO FORM[J].Beijing Review,2017,60(52):16-17.
3刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：482
4周睿.基于径向基函数神经网络的铁路路径规划[J].电子技术与软件工程,2018(1):20-21.
5赵梦蕾,邱根麒,郑秋莉.河南科技学院新东区校园景观规划设计[J].安徽农业科学,2017,45(36):183-185.
6徐淼,周志华.利用辅助信息进行矩阵补全的核方法及其在多标记学习中的应用[J].中国科学：信息科学,2018,48(1):47-59. 被引量：1
7波波.用好Windows10存储感知[J].电脑爱好者,2018,0(5):29-29.
8郭萍.对普通高校绩效考核的对策研究[J].职工法律天地（下）,2016,0(9):286-286.
9丁文春,张杭.优化搜索方向的自然梯度盲分离算法[J].军事通信技术,2017,38(2):12-16. 被引量：2
10张登峰,刘士亚,张志飞.Acrobot机器臂的分区域镇定控制[J].佛山科学技术学院学报（自然科学版）,2017,35(5):16-20. 被引量：2

软件学报

2018年第2期

浏览历史

内容加载中请稍等...

一种解决连续空间问题的真实在线自然梯度AC算法被引量：5

参考文献1

二级参考文献16

共引文献8

同被引文献60

引证文献5

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

一种解决连续空间问题的真实在线自然梯度AC算法 被引量：5

参考文献1

二级参考文献16

共引文献8

同被引文献60

引证文献5

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

一种解决连续空间问题的真实在线自然梯度AC算法被引量：5