基于隐偏向信息学习的强化学习算法被引量：4

Reinforcement Learning Based on Hidden Biasing Information Learning

下载PDF

导出

摘要传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时,存在收敛速度慢,训练时间长等问题.有效地学习和利用问题中包含的偏向信息可以加快学习速度,提高学习效率.在分析了偏向机制特点的基础上引入了隐偏向信息的概念,建立了一种基于偏向信息学习的强化学习模型,并提出了一种基于特征的改进SARSA(λ)算法.针对于推箱任务的实验表明,改进的算法明显提高了学习效率. The extension of reinforcement learning to MDPs with large state,action space and high complexity has inevitably encountered the problem of the curse of dimensionality,which results in slow convergence and long training time.Learning and using effectively the biasing information hidden in the problems can accelerate the process of learning. This paper introduces the concept of hidden biasing information based on the analysis of bias. A model of reinforcement learning based on hidden biasing information learning is proposed. And an improved SARSA(λ) algorithm based on feature is also proposed. Finally,we validate our new algorithm by experiment on Box Pushing Task.The results show that the new algorithm has better performance.

作者李学勇欧阳柳波李国徽

机构地区长沙大学数学与信息科学系湖南大学软件学院华中科技大学计算机科学与技术学院

出处《南华大学学报（理工版）》 2004年第2期10-16,共7页 Journal of Nanhua University(Science & Engineering)

基金国家自然科学基金资助项目(6020317) 国家科技基础性研究专项资金项目(2001DE20016-02-04).

关键词强化学习 MARKOV决策过程隐偏向信息 SARSA算法复杂度 reinforcement learning Markov decision process bias hidden biasing information SARSA(λ) algorithm

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献16

1Sutton R S,Barto A G. Reimforcement learning: an introduction[M] .MA:MIT Press, 1998.
2Brown X T. Low power wireless communication via reinforcement learning[A]. In: Advances in Neural Information Processing Systems[C] .MIT press,2000(12):893 ～ 899.
3Mataric M J. Cetting humanoids to move and imitate[J].IEEE Intelligent Systems,2000(7): 18 ～ 24.
4Mill' an R, Posenato D, Dedieu E. Continuous - Action Qlearning[ J]. Machine Learning,2002(49):247 ～ 265.
5Shapiro D. Value - driven agents[ D]. Ph. D. thesis, Stanford University, 2001.
6Rennie J, McCallum A. Using reinforcement leaming to spider the web efficiently[A]. In: Pwroc of International Conference on Machine Learning (ICML)[C] .1999.
7Sutton R S. Open theoretical questions in reinforcement leaming[A]. In:Proc of EuroCOLT'99[ C] .1999,11 ～ 17.
8陈焕文,谢丽娟,谢建平.一类值函数激励学习的遗忘算法[J].计算机研究与发展,2001,38(4):487-494. 被引量：14
9Barto A G, Mahadevan S. Recent advances in hierarchical reinforcement learning [ J ]. Special Issue on Reinforcement Learning, Discrete Event Systems,2003,23(4): 197 ～ 223.
10Hailu G,Sommer G.On amount and quality of bias in reinforcement learning[ A]. In: Proc of IEEE SMC' 99[ C].1999, 1491 ～ 1495.

二级参考文献5

1杨治良，记忆心理学（第2版），1999年
2张奇，学习理论，1999年
3李月甫（译），人类的学习，1998年
4张东摩,李红兵.人工智能研究动态与发展趋势——参加第十五届国际人工智能联合大会总结报告[J].计算机科学,1998,25(2):5-8. 被引量：14
5张汝波,杨广铭,顾国昌,张国印.Q-学习及其在智能机器人局部路径规划中的应用研究[J].计算机研究与发展,1999,36(12):1430-1436. 被引量：17

共引文献13

1殷苌茗,王汉兴,陈焕文.基于动态规划方法的激励学习遗忘算法[J].计算机工程与应用,2004,40(16):75-78.
2密君英,李凡长.一种激励学习遗忘算法[J].计算机工程与应用,2004,40(30):61-64. 被引量：1
3田建军,唐中勇.基于RBF函数状态离散化的激励学习[J].太原师范学院学报（自然科学版）,2006,5(3):50-53.
4钱旭培.一种基于DFS的Agent在线学习模型研究[J].计算机与现代化,2006(11):5-7.
5张玉洁,孟祥武.遗忘遗传算法及其在信用评分中的应用[J].北京科技大学学报,2012,34(4):471-475. 被引量：1
6殷苌茗,陈焕文,谢丽娟.基于每阶段平均费用最优的激励学习算法[J].计算机应用,2002,22(4):25-27. 被引量：3
7殷苌茗,陈焕文,谢丽娟.基于有限样本的最优费用关联值递归Q学习算法[J].计算机工程与应用,2002,38(11):65-67. 被引量：4
8陈叔平.两个问题:汽车车牌拍卖和图片比对问题[J].数学建模及其应用,2017,6(3):84-86.
9殷苌茗,陈焕文,谢丽娟.样本有限关联值递归Q学习算法及其收敛性证明[J].计算机研究与发展,2002,39(9):1064-1070. 被引量：4
10殷苌茗,陈焕文,谢丽娟.激励学习的广义平均算法及其收敛性[J].计算机工程与应用,2002,38(20):72-74.

同被引文献37

1夏莉,黄晶晶.期权定价理论与分阶段投资决策[J].商业研究,2004(16):113-114. 被引量：6
2田厚平,郭亚军,杨耀东.分销系统中多委托人及委托人可能合作的委托代理问题[J].系统工程理论方法应用,2004,13(4):361-366. 被引量：23
3应保胜,容芷君.线性供应链的稳定性分析及稳定化策略研究[J].湖北工业大学学报,2005,20(3):71-73. 被引量：3
4李随成,尹洪英.基于Q学习的供应链分销系统最优订货策略研究[J].控制与决策,2005,20(12):1404-1407. 被引量：2
5王迎军,高峻峻,郭亚军.基于需求预测的分销系统成本模型[J].系统工程学报,2006,21(1):97-101. 被引量：1
6刘昌贵,但斌.供应链战略合作伙伴关系的建立与稳定问题[J].软科学,2006,20(3):60-63. 被引量：24
7道金斯.自私的基因[M].长春:吉林人民出版社,1998.216113-5.
8Antonio Murciano,Jose del R Millan,Javier Zamora. Specialization in Multi-agent Systems Through Learning[J]. Biological Cybernetics, 1997:76(5):375-382.
9Kim C O, Jun J, Baek J K, et al. Adaptive Inventory Control Models for Supply Chain Management[J]. Int J of Advanced Manufacturing Technology, 2004,26(7):1184-1192.
10成思危.中国经济改革与发展(第一集)[M].北京:中国人民大学出版社,2000.

引证文献4

1李随成,尹洪英.基于Q学习的供应链分销系统最优订货策略研究[J].控制与决策,2005,20(12):1404-1407. 被引量：2
2党兴华,权小锋,尹洪英.强化学习算法在分阶段组合投资决策中的应用[J].科技管理研究,2006,26(3):241-243. 被引量：1
3权小锋,尹洪英.基于互惠合作的供应链合作关系稳定机制研究[J].物流技术,2007,26(8):158-163. 被引量：6
4权小锋,尹洪英.供应链分销系统奖金优化与仿真分析[J].物流技术,2007,26(9):86-89.

二级引证文献9

1权小锋,尹洪英.基于互惠合作的供应链合作关系稳定机制研究[J].物流技术,2007,26(8):158-163. 被引量：6
2权小锋,尹洪英.供应链分销系统奖金优化与仿真分析[J].物流技术,2007,26(9):86-89.
3张蓓佳,侯合银.技术创新影响下的分阶段组合投资规模决策模型研究[J].科技管理研究,2011,31(23):56-59. 被引量：2
4丁寅,洪跃,王俊杰.集中采购供应链稳定性研究[J].中国市场,2013(18):28-30. 被引量：11
5欧阳琦,石岿然,蒋凤.供应链成员间信任关系的博弈学习模型[J].物流技术,2014,33(4):297-299. 被引量：3
6王书玲,李永峰.供应链合作关系及其前因变量研究[J].物流科技,2016,39(2):123-126.
7隋博文.关系稳定性、联盟绩效与跨境农产品供应链优化:一个理论框架及变量解释[J].经济与管理评论,2017,33(2):64-71. 被引量：8
8夏文波,翟佳,何开伦.互惠利他行为在供应链管理中的研究综述[J].福建商学院学报,2019,0(6):41-47. 被引量：3
9刘彩虹.我国制造业供应链稳定性研究综述[J].供应链管理,2021,2(1):30-39. 被引量：3

1林芬,石川,罗杰文,史忠植.基于偏向信息学习的双层强化学习算法[J].计算机研究与发展,2008,45(9):1455-1462. 被引量：9
2殷苌茗,付超红,薛丽华,李立云.基于组合神经网络的Sarsa(λ)学习算法[J].计算机工程与设计,2008,29(22):5817-5819.
3战忠丽,王强,陈显亭.强化学习的模型、算法及应用[J].电子科技,2011,24(1):47-49. 被引量：8
4李春贵,阳树洪,王萌,张增芳.基于SARSA(λ)算法的单路口交通信号学习控制[J].广西工学院学报,2008,19(2):10-14. 被引量：3
5柴旭清,孙丽娜.基于量子粒子群和SARSA算法的蜂窝网络信道分配[J].计算机测量与控制,2015,23(10):3555-3557. 被引量：4
6温春明.SQL Server存储过程研究[J].福建电脑,2007,23(5):53-53. 被引量：8
7宋磊,吴伟明.Web服务在企业应用集成中的应用研究[J].电子科学技术评论,2005(2):56-59. 被引量：1
8杨晓庆.计算机系统与计算机网络中的动态优化:模型、求解与应用[J].计算机光盘软件与应用,2014,17(9):108-108. 被引量：3
9赵飞,刘宁,秦敏.计算机系统与计算机网络中的动态优化[J].山东工业技术,2016(6):142-142. 被引量：1
10常峰,贺元骅.基于强化学习和蚁群算法的WSN节点故障诊断[J].计算机测量与控制,2015,23(3):755-758. 被引量：1

南华大学学报（理工版）

2004年第2期

浏览历史

内容加载中请稍等...

基于隐偏向信息学习的强化学习算法被引量：4

参考文献16

二级参考文献5

共引文献13

同被引文献37

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于隐偏向信息学习的强化学习算法 被引量：4

参考文献16

二级参考文献5

共引文献13

同被引文献37

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于隐偏向信息学习的强化学习算法被引量：4