一种基于高斯过程的行动者评论家算法被引量：1

Actor-critic algorithm based on Gaussian process

下载PDF

导出

摘要强化学习领域的一个研究难点是在大规模或连续空间中平衡探索和利用的问题。针对该问题,应用函数近似与高斯过程方法,提出新的行动者评论家(actor-critic,AC)算法。该算法在actor中使用时间差分误差构造关于策略参数的更新公式;在critic中利用高斯过程对线性带参值函数建模,结合生成模型,根据贝叶斯推理求解值函数的后验分布。将该算法应用于平衡杆实验中,实验结果表明,算法收敛速度较快,可以有效解决在大规模或连续空间中探索和利用的平衡问题,具有较好的性能。 The problem of how to balance the exploration and exploitation in the large or continuous state space is a hot topic in the field of reinforcement learning. With respect to this problem,this paper presented a novel actor-critic algorithm which combined with function approximation method and Gaussian process method. In the terms of actor,the algorithm used the temporal difference error to construct a mean square error function with respect to the policy parameters. In the terms of critic,the algorithm used Gaussian process to model the linear state-value function,and in conjunction with generative model,obtained the posteriori distribution of the parameter vector of the state-value function by Bayesian inference. The experimental results on the balance pole experiment shows that the algorithm has faster convergence rate and achieves the balance between exploration and exploitation in the large or continuous state space effectively. The algorithm has good convergence performance.

作者陈仕超凌兴宏刘全伏玉琛陈桂兴

机构地区苏州大学计算机科学与技术学院吉林大学符号计算与知识工程教育部重点实验室

出处《计算机应用研究》 CSCD 北大核心 2016年第6期1670-1675,共6页 Application Research of Computers

基金国家自然科学基金资助项目(61103045 61272005 61272244 61303108 61373094) 江苏省自然科学基金资助项目(BK2012616) 江苏省高校自然科学研究资助项目(13KJB520020) 吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172014K04)

关键词强化学习行动者评论家高斯过程贝叶斯推理连续空间 reinforcement learning actor-critic Gaussian process Bayesian inference continuous space

分类号 TP181 [自动化与计算机技术—控制理论与控制工程] TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献16

1Sutton R S,Barto A G.Reinforcement learning:an introduction[M].Cambridge:MIT Press,1998.
2Busoniu L,Babuska R,Deschutter B,et al.Reimforcement learning and dynamic programming using function approximators[M].Boca Raton,FL:CRC Press,2010.
3刘全,傅启明,龚声蓉,伏玉琛,崔志明.最小状态变元平均奖赏的强化学习方法[J].通信学报,2011,32(1):66-71. 被引量：15
4Konda V R,Tsitsiklis J N.On actor-critic algorithms[J].SIAM Journal on Control Optim,2003,42(4):1143-1166.
5Rosenstein M T,Barto A G.Supervised learning combined with an actor-critic architecture,TR 02-41[R].[S.l.] :CMPSCI,2002.
6Grondman I,Busoniu L,Lopes G A D,et al.A survey of actor-critic reinforcement learning:standard and natural policy gradients[J].IEEE Trans on Systems,Man,and Cybernetics,Part C:Applications and Reviews,2012,42(6):1291-1307.
7Sutton R S,Mcallester D,Singh S,et al.Policy Gradient methods for reinforcement learning with function approximation[C] //Advances in Neural Information Processing Systems.Cambridge :MIT Press,2000.
8Peters J,Schaal S.Natural actor-critic[J].Neurocomputing,2008,71(7-9):1180-1190.
9Peters J,Vijayakumar S,Schaal S.Reinforcement learning for humanoid robotics[C] //Proc of IEEE-RAS International Conference on Humanoid Robotics.2003.
10Dearden R,Friedman N,Russell S.Bayesian Q-learning[C] // Proc of the 15th National/10th Conference on Artificial Intelligence/ Innovative Applications of Artificial Intelligence.[S.l.] :AAAI Press,1998:761-768.

二级参考文献3

1沈晶,顾国昌,刘海波.分层强化学习研究综述[J].模式识别与人工智能,2005,18(5):574-581. 被引量：7
2高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
3高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：268

共引文献14

1肖飞,刘全,傅启明,孙洪坤,高龙.基于自适应势函数塑造奖赏机制的梯度下降Sarsa(λ)算法[J].通信学报,2013,34(1):77-88. 被引量：6
2李冠峰,贺学剑,韩道军.强化学习在中职招生系统中的应用[J].计算机应用与软件,2013,30(4):252-254.
3傅启明,刘全,孙洪坤,高龙,李瑾,王辉.一种二阶TD Error快速Q(λ)算法[J].模式识别与人工智能,2013,26(3):282-292. 被引量：5
4孙洪坤,刘全,傅启明,肖飞,高龙.一种优先级扫描的Dyna结构优化算法[J].计算机研究与发展,2013,50(10):2176-2184. 被引量：2
5方敏,李浩.基于状态回溯代价分析的启发式Q学习[J].模式识别与人工智能,2013,26(9):838-844. 被引量：9
6傅启明,刘全,伏玉琛,周谊成,于俊.一种高斯过程的带参近似策略迭代算法[J].软件学报,2013,24(11):2676-2686. 被引量：4
7于俊,刘全,傅启明,孙洪坤,陈桂兴.基于优先级扫描Dyna结构的贝叶斯Q学习方法[J].通信学报,2013,34(11):129-139. 被引量：6
8朱斐,刘全,傅启明,伏玉琛.一种用于连续动作空间的最小二乘行动者-评论家方法[J].计算机研究与发展,2014,51(3):548-558. 被引量：9
9傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014,37(3):677-686. 被引量：26
10黄蔚,刘全,孙洪坤,傅启明,周小科.基于拓扑序列更新的值迭代算法[J].通信学报,2014,35(8):56-62. 被引量：1

同被引文献5

1蒋宇浩,余林琛.可伸缩视频编码在移动互联网中的应用与实现[J].微电子学与计算机,2016,33(12):134-138. 被引量：2
2宋晓勤,谈雅竹,董莉,王健康,胡静,宋铁成.基于拟牛顿内点法的认知车联网能效优先资源分配算法[J].东南大学学报（自然科学版）,2019,49(2):213-218. 被引量：2
3曲明哲.基于替代迹的蜂窝网信道分配Actor-Critic算法[J].计算机应用研究,2018,35(4):1213-1216. 被引量：1
4王明青,杨博文,杨坚.LTE可伸缩视频组播的动态资源分配算法[J].计算机工程,2018,44(10):274-280. 被引量：2
5吴启晖,金珊珊,董超,黄洋,戚楠.车联网频谱捷变机制研究[J].北京交通大学学报,2019,43(1):132-137. 被引量：1

引证文献1

1康云鹏,付芳,张志才.车联网中基于SVC视频传输业务的资源分配研究[J].测试技术学报,2020,34(2):173-178. 被引量：1

二级引证文献1

1张志才,张熠宁,付芳.雾计算辅助车联网中面向视频直播业务的资源分配研究[J].测试技术学报,2021,35(5):450-455.

1朱斐,刘全,傅启明,伏玉琛.一种用于连续动作空间的最小二乘行动者-评论家方法[J].计算机研究与发展,2014,51(3):548-558. 被引量：9
2梁玉成,贾小双.数据驱动下的自主行动者建模[J].贵州师范大学学报（社会科学版）,2016(6):31-34. 被引量：13
3李倩.C2C电子商务网站诚信的建立[J].内江科技,2010,31(3):118-118. 被引量：1
4迟宇.装备制造业能跨界“混搭”么?[J].矿业装备,2016(6):6-6.
5朱文文,金玉净,伏玉琛,宋绪文.连续空间的递归最小二乘行动者—评论家算法[J].计算机应用研究,2014,31(7):1994-1997. 被引量：2
6姚静,梅雪,林锦国.复杂背景下基于时间差分的人脸检测算法[J].微计算机信息,2007,23(02S):267-269. 被引量：3
7朱洪涛.基于图像采集卡的智能安防监控系统设计[J].微计算机信息,2009,25(25):90-91. 被引量：1
8金玉净,朱文文,伏玉琛,刘全.基于Tile Coding编码和模型学习的Actor-Critic算法[J].计算机科学,2014,41(6):239-242. 被引量：3
9张春元,朱清新.基于对称扰动采样的Actor-critic算法[J].控制与决策,2015,30(12):2161-2167. 被引量：1
10顺风.“百度Hi”的革命性创新元素[J].软件工程师,2008(5):60-60.

计算机应用研究

2016年第6期

浏览历史

内容加载中请稍等...

一种基于高斯过程的行动者评论家算法被引量：1

参考文献16

二级参考文献3

共引文献14

同被引文献5

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于高斯过程的行动者评论家算法 被引量：1

参考文献16

二级参考文献3

共引文献14

同被引文献5

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于高斯过程的行动者评论家算法被引量：1