最小状态变元平均奖赏的强化学习方法被引量：15

Reinforcement learning algorithm based on minimum state method and average reward

下载PDF

导出

摘要针对采用折扣奖赏作为评价目标的Q学习无法体现对后续动作的影响问题,提出将平均奖赏和Q学习相结合的AR-Q-Learning算法,并进行收敛性证明。针对学习参数个数随着状态变量维数呈几何级增长的"维数灾"问题,提出最小状态变元的思想。将最小变元思想和平均奖赏用于积木世界的强化学习中,试验结果表明,该方法更具有后效性,加快算法的收敛速度,同时在一定程度上解决积木世界中的"维数灾"问题。 In allusion to the problem that Q-Learning,which was used discount reward as the evaluation criterion,could not show the affect of the action to the next situation,AR-Q-Learning was put forward based on the average reward and Q-Learning.In allusion to the curse of dimensionality,which meant that the computational requirement grew exponen-tially with the number of the state variable.Minimum state method was put forward.AR-Q-Learning and minimum state method were used in reinforcement learning for Blocks World,and the result of the experiment shows that the method has the characteristic of aftereffect and converges more faster than Q-Learning,and at the same time,solve the curse of di-mensionality in a certain extent in Blocks World.

作者刘全傅启明龚声蓉伏玉琛崔志明

机构地区苏州大学计算机科学与技术学院南京大学软件新技术国家重点实验室

出处《通信学报》 EI CSCD 北大核心 2011年第1期66-71,共6页 Journal on Communications

基金国家自然科学基金资助项目(60873116 61070223 61070122) 江苏省自然科学基金资助项目(BK2008161 BK2009116) 江苏省高校自然科学研究基金资助项目(09KJA520002) 江苏省现代企业信息化应用支撑软件工程技术研究开发中心基金资助项目(SX200804)~~

关键词强化学习平均奖赏俄罗斯方块最小状态 reinforcement learning average reward tetris minimum state

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1沈晶,顾国昌,刘海波.分层强化学习研究综述[J].模式识别与人工智能,2005,18(5):574-581. 被引量：7
2高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：266
3高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38

二级参考文献63

1Bernstein D, Zilberstein S, Immerman N. The Complexity of Decentralized Control of Markov Decision Processes. In :Proc of the 16th Conference on Uncertainty in Artificial Intelligence. Stanford, USA, 2000, 32-37.
2Singh S P, Jaakola T, Jordan M I. Reinforcement Learning with Soft State Aggregation. In:Tesauro G, Touretzky D S, Leen T K, eds. Advances in Neural Information Processing Systems 7.Cambridge, USA:MIT Press, 1995, 361-368.
3Moriarty D, Sehultz A, Grefenstette J. Evolutionary Algorithms for Reinforcement Learning. Journal of Artificial Intelligence Research, 1999, 11:241-276.
4Bertsekas D P, Tsitsiklis J N. Neuro-Dynamic Programming.Belmont, USA: Athena Scientific, 1996.
5Barto A G, Mahadevan S. Recent Advances in Hierarchical Reinforcement Learning. Discrete Event Dynamic Systems:Theory and Applications, 2003, 13(4), 41-77.
6Sutton R S, Precup D, Singh S P. Between MDPs and Semi-MDPs: A Framework for Temporal Abstraction in Reinforcement Learning. Artificial Intelligence, 1999, 112(1-2): 181-211.
7Parr R. Hierarchical Control and Learning for Markov Decision Processes. Ph. D Dissertation. University of California, Berkeley, USA, 1998.
8Dietterich T G. Hierarchical Reinforcement Learning with the MAXQ Value Function Decomposition. Journal of Artificial Intelligence Research, 2000, 13 : 227- 303.
9Minsky M L. Theory of Neural-Analog Reinforcement Systems and Its Application to the Brain-Model Problem. Ph. D Dissertation. Princeton University, Princeton, USA, 1954.
10Bellman R E, Dreyfus S E. Applied Dynamic Programming. Princeton, USA: Princeton University Press, 1962.

共引文献302

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2Di Cao,Weihao Hu,Junbo Zhao,Guozhou Zhang,Bin Zhang,Zhou Liu,Zhe Chen,Frede Blaabjerg.Reinforcement Learning and Its Applications in Modern Power and Energy Systems: A Review[J].Journal of Modern Power Systems and Clean Energy,2020,8(6):1029-1042. 被引量：27
3安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
4丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
5王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
6马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
7赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
8李瑾,刘全,杨旭东,杨凯,翁东良.一种改进的平均奖赏强化学习方法在RoboCup训练中的应用[J].苏州大学学报（自然科学版）,2012,28(2):21-26. 被引量：2
9周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
10卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5

同被引文献111

1魏英姿 ,赵明扬 .强化学习算法中启发式回报函数的设计及其收敛性分析[J].计算机科学,2005,32(3):190-193. 被引量：13
2陈宗海,文锋,聂建斌,吴晓曙.基于节点生长k-均值聚类算法的强化学习方法[J].计算机研究与发展,2006,43(4):661-666. 被引量：13
3Watkins C J C H. Learning from Delayed Rewards. Ph. D Disserta-tion. Cambridge, UK: Cambridge University, 1989.
4Watkins C J C H, Dayan P. Q-Leaming. Machine Learning, 1992,8(3/4): 279-292.
5Szepesvfiri C S. The Asymptotic Convergence-Rate of Q-Leaming //Proc of the 10th Neural Information Processing Systems. Cambridge,USA: MIT Press, 1997: 1064-1070.
6Sutton R S, Barlo G A. Reinforcement Learning. Cambridge, USA;MIT Press, 1998.
7Even-Dar E, Mansour Y. Learning Rates for Q-Leaming. Journal ofMachine Learning Research, 2003, 5: 1-25.
8Ernst D, Geurts P, Wehenkel L. Tree-Based Batch Mode Reinforce-ment Learning. Journal of Machine Learning Research, 2005,6(4): 503-556.
9Strehl A L, Li L H, Wiewiora E, et al. PAC Model-Free Reinforce-ment Learning // Proc of the 23 rd International Conference onMachine Learning. New York, USA, 2006 : 881-888.
10Maei H R, Szepesvri C S, Bhatnagar S, et al. Toward 0.f~PolicyLearning Control with Function Approximation // Proc of the 27 thInternational Conference on Machine Learning. Haif, Israel, 2010 :719-726.

引证文献15

1肖飞,刘全,傅启明,孙洪坤,高龙.基于自适应势函数塑造奖赏机制的梯度下降Sarsa(λ)算法[J].通信学报,2013,34(1):77-88. 被引量：6
2李冠峰,贺学剑,韩道军.强化学习在中职招生系统中的应用[J].计算机应用与软件,2013,30(4):252-254.
3傅启明,刘全,孙洪坤,高龙,李瑾,王辉.一种二阶TD Error快速Q(λ)算法[J].模式识别与人工智能,2013,26(3):282-292. 被引量：5
4孙洪坤,刘全,傅启明,肖飞,高龙.一种优先级扫描的Dyna结构优化算法[J].计算机研究与发展,2013,50(10):2176-2184. 被引量：2
5方敏,李浩.基于状态回溯代价分析的启发式Q学习[J].模式识别与人工智能,2013,26(9):838-844. 被引量：9
6傅启明,刘全,伏玉琛,周谊成,于俊.一种高斯过程的带参近似策略迭代算法[J].软件学报,2013,24(11):2676-2686. 被引量：4
7于俊,刘全,傅启明,孙洪坤,陈桂兴.基于优先级扫描Dyna结构的贝叶斯Q学习方法[J].通信学报,2013,34(11):129-139. 被引量：6
8朱斐,刘全,傅启明,伏玉琛.一种用于连续动作空间的最小二乘行动者-评论家方法[J].计算机研究与发展,2014,51(3):548-558. 被引量：9
9傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014,37(3):677-686. 被引量：26
10黄蔚,刘全,孙洪坤,傅启明,周小科.基于拓扑序列更新的值迭代算法[J].通信学报,2014,35(8):56-62. 被引量：1

二级引证文献79

1杨金鸿,谭斌,皇甫立,熊璋.一种基于联合神经网络的连续空间行动者评论家学习方法[J].智能安全,2022,1(2):19-25.
2于俊,刘全,傅启明,孙洪坤,陈桂兴.基于优先级扫描Dyna结构的贝叶斯Q学习方法[J].通信学报,2013,34(11):129-139. 被引量：6
3徐琳琳,张树美,赵俊莉.构建并行卷积神经网络的表情识别算法[J].中国图象图形学报,2019,24(2):227-236. 被引量：51
4张国亮,王展妮,王田.应用计算机视觉的动态手势识别综述[J].华侨大学学报（自然科学版）,2014,35(6):653-658. 被引量：11
5刘智斌,曾晓勤,刘惠义,储荣.基于BP神经网络的双层启发式强化学习方法[J].计算机研究与发展,2015,52(3):579-587. 被引量：38
6戈军,周莲英.面向交通信号的两层递阶控制解决方案[J].计算机工程与应用,2015,51(20):246-252. 被引量：1
7钟珊,刘全,傅启明,章宗长,朱斐,龚声蓉.一种近似模型表示的启发式Dyna优化算法[J].计算机研究与发展,2015,52(12):2764-2775. 被引量：4
8朱斐,许志鹏,刘全,伏玉琛,王辉.基于可中断Option的在线分层强化学习方法[J].通信学报,2016,37(6):65-74. 被引量：4
9冯国杰.噪声环境下的网络异常信号检测方法研究[J].计算机仿真,2016,33(8):407-410. 被引量：2
10魏振春,徐祥伟,冯琳,丁蓓.基于Q学习和规划的传感器节点任务调度算法[J].模式识别与人工智能,2016,29(11):1028-1036. 被引量：5

1手工抢救Office数据[J].电脑爱好者（普及版）,2011(A01):42-42.
2陈焕文,谢丽娟.平均奖赏MDP的在策略无模型激励学习算法[J].计算机工程与科学,2001,23(2):66-69.
3陈焕文,谢建平.一类基于有效跟踪的广义平均奖赏激励学习算法[J].计算机工程与应用,2002,38(1):65-68. 被引量：1
4臧兆祥,李昭,王俊英,但志平.基于平均奖赏强化学习算法的零阶分类元系统[J].计算机工程与应用,2016,52(21):14-20. 被引量：1
5戴洵,张文明,冯雅丽.基于非最小状态空间模型的控制器设计及仿真[J].系统工程与电子技术,2008,30(1):132-134. 被引量：2
6程福亨,孙振东.离散时间切换线性系统的最小状态超调设计（英文）[J].控制理论与应用,2017,34(2):260-264. 被引量：1
7王巍巍,陈兴国,高阳.一种结合Tile Coding的平均奖赏强化学习算法[J].模式识别与人工智能,2008,21(4):446-452.
8李瑾,刘全,杨旭东,杨凯,翁东良.一种改进的平均奖赏强化学习方法在RoboCup训练中的应用[J].苏州大学学报（自然科学版）,2012,28(2):21-26. 被引量：2
9景艳龙.智能暖气控制系统的开发与应用研究[J].中国仪器仪表,2014(6):28-31. 被引量：1
10杨晓峰.C语言使用中常见的语法和逻辑错误分析[J].开封大学学报,2012,26(2):84-86.

通信学报

2011年第1期

浏览历史

内容加载中请稍等...

最小状态变元平均奖赏的强化学习方法被引量：15

参考文献3

二级参考文献63

共引文献302

同被引文献111

引证文献15

二级引证文献79

相关作者

相关机构

相关主题

浏览历史

最小状态变元平均奖赏的强化学习方法 被引量：15

参考文献3

二级参考文献63

共引文献302

同被引文献111

引证文献15

二级引证文献79

相关作者

相关机构

相关主题

浏览历史

最小状态变元平均奖赏的强化学习方法被引量：15