并行强化学习算法及其应用研究被引量：7

Parallel reinforcement learning algorithm and its application

下载PDF

导出

摘要强化学习是一种重要的机器学习方法,然而在实际应用中,收敛速度缓慢是其主要不足之一。为了提高强化学习的效率,提出了一种并行强化学习算法。多个同时学习,在各自学习一定周期后,利用D-S证据利用对学习结果进行融合,然后在融合结果的基础上,各进行下一周期的学习,从而实现提高整个系统学习效率的目的。实验结果表明了该方法的可行性和有效性。 Reinforcement learning is an important machine learning method.However,slow convergence has been one of main problem in practice.To improve the efficiency of reinforcement learning,this paper proposes parallel reinforcement learning algorithm.There are multiple agents in learning system.In a learning episode ,each agent learns independently.After a learning episode, the results of all agents are fused based on D-S evidence theory so as to achieve common result, which are shared by all agents in next learning episode.Experiments show the feasibility and efficiency of the algorithm.

作者孟伟韩学东

机构地区北京林业大学信息学院中国航天科工集团

出处《计算机工程与应用》 CSCD 北大核心 2009年第34期25-28,52,共5页 Computer Engineering and Applications

基金国家"十一五"科技支撑计划重大项目资助No.2006BAD03A02~~

关键词并行算法强化学习 Q-学习 D—S证据理论路径规划 parallel algorithms reinforcement learning Q-learning D-S evidence theory path plan

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献11

1Sutton R S,Barto A G.Reinforcement learning:An introduction[M]. Cambridge, MA: MIT Press, 1998.
2Watkins C J C H,Dayan P.Q-leaming[J].Machine Learning, 1992,8 (3) : 279-292.
3Kaelbling L P,Littman M L,Moore A W.Reinforcement learning:A survey[J].Journal of Artificial Intelligence Research, 1996,4:237-285.
4张汝波.提高强化学习速度的方法研究[J].计算机工程与应用,2001,37(22):38-40. 被引量：8
5Barto A G,Sutton R S,Brouwer P S.Associative search network:A reinforcement learning associative memory[J].Biological Cybernetics, 1981,40:201-211.
6褚海涛,洪炳熔.基于动作选择级的多机器人协作(英文)[J].软件学报,2002,13(9):1773-1778. 被引量：3
7童亮,陆际联,龚建伟.一种快速强化学习方法研究[J].北京理工大学学报,2005,25(4):328-331. 被引量：4
8毛俊杰,刘国栋.基于先验知识的改进强化学习及其在MAS中应用[J].计算机工程与应用,2008,44(24):156-158. 被引量：2
9Ahmadabadi M N,Asadpour M.Expertness based cooperative Q- learning[J].IEEE Transactions on Systems,Man,and Cybernetics- part B : Cybernetics, 2002,32( 1 ) : 66-76.
10仲宇,顾国昌,张汝波.多智能体系统中的分布式强化学习研究现状[J].控制理论与应用,2003,20(3):317-322. 被引量：12

二级参考文献84

1赵丽,董红斌.多Agent系统在RoboCup中的应用[J].哈尔滨师范大学自然科学学报,2005,21(2):40-45. 被引量：2
2杜春侠,高云,张文.多智能体系统中具有先验知识的Q学习算法[J].清华大学学报（自然科学版）,2005,45(7):981-984. 被引量：21
3李楠,刘国栋.内在激励强化学习及其在Robocup仿真中的应用[J].计算机仿真,2006,23(4):160-162. 被引量：3
4宋清昆,胡子婴.基于经验知识的Q-学习算法[J].自动化技术与应用,2006,25(11):10-12. 被引量：7
5Wang B N,Gao Y,Chen Z Q,et al.LMRL:a multi-agent reinforcement learning model and algorithm[C]//Proceedings of Third International Conference on Information Technology and Applications (ICITA'05), 2005.
6Piao S H,Hong B R.Fast reinforcement learning approach to cooperative behavior acquisition in multi-agent system[C]//Proceedings of the 2002 IEEE/RSJ International Conference on Intelligent Robots and Systems, 2002,1 : 871-875.
7Kostas K,Hu H S.Reinforcement learning and co-operation in a simulated multi-agent system[C]//Proceedings of the 1999 IEEE/RSJ International Conference on Intelligent Robots and Systems,1999: 990-995.
8Yang E F,Gu D B.A multiagent fuzzy policy reinforcement learning algorithm with application to leader-follower robotic systems[C]// Proceedings of the 2006 IEEE/RSJ International Conference on Intelligent Robots and Systems, 2006: 3197-3202.
9White R W.Motivation reconsidered:The concept of competence[J]. Psychological, Review, 1959,66.
10Barto A G,Singh S,Chentanez.Intrinsically motivated learning of hierachical collections of skills[C]//Proceedings of the 3rd International Conference on Developmental Learning (ICL'04),LaJolla CA, 2004.

共引文献24

1王慧华,朱娜.多用户协作环境下的递归建模及合理决策[J].计算机工程与科学,2004,26(12):94-96. 被引量：1
2杜春侠,高云,张文.多智能体系统中具有先验知识的Q学习算法[J].清华大学学报（自然科学版）,2005,45(7):981-984. 被引量：21
3周浦城,洪炳镕,郭耸.基于强化学习的多机器人协作[J].计算机工程与应用,2005,41(28):10-12. 被引量：3
4宋梅萍,顾国昌,张国印.随机博弈框架下的多agent强化学习方法综述[J].控制与决策,2005,20(10):1081-1090. 被引量：12
5黄炳强,曹广益,王占全.强化学习原理、算法及应用[J].河北工业大学学报,2006,35(6):34-38. 被引量：19
6宋清昆,胡子婴.基于经验知识的Q-学习算法[J].自动化技术与应用,2006,25(11):10-12. 被引量：7
7张云,刘建平.Q学习的改进研究及其仿真实验[J].计算机仿真,2007,24(10):111-114. 被引量：3
8唐亮贵,刘波,唐灿,程代杰.基于神经网络的Agent增强学习模型[J].计算机科学,2007,34(11):156-158. 被引量：3
9战忠丽,王强,王佩霞.多Agent系统中Q学习算法研究[J].辽宁农业职业技术学院学报,2008,10(5):48-50.
10刘喜春,王超,王文广,王维平.基于多Agent强化学习的战时备件供应保障动态协调机制[J].空军工程大学学报（自然科学版）,2009,10(3):59-63. 被引量：2

同被引文献37

1童亮,陆际联,龚建伟.一种快速强化学习方法研究[J].北京理工大学学报,2005,25(4):328-331. 被引量：4
2陈宗海,文锋,聂建斌,吴晓曙.基于节点生长k-均值聚类算法的强化学习方法[J].计算机研究与发展,2006,43(4):661-666. 被引量：13
3宋清昆,胡子婴.基于经验知识的Q-学习算法[J].自动化技术与应用,2006,25(11):10-12. 被引量：7
4Sutton R S,Barto A G.Reinforcement learning.[s.l.]:MIT Press,1998.
5Weng Juyang.On developmental mental architectures.Neruocomputing,2007;70:2303-2323.
6Watkins C J C H,Dayan P.Q-learning.Machine Learning,1994;8(3):279-292.
7Fierro R,Lewis F L.Control of a nonholonomic mobile robot using neural networks.IEEE Transcation on Neural Networks.1998;9(4):589-600.
8Yager R.On the dempster shafer framework and new combination rules.Information Sciences,1997;(41):93-137.
9Singh S P, Jaakola T, Jordan M I. Neural Information Processing Systems [M]. Cambridge, Massachusetts: MIT Press, 1995： 361-368.
10LaTorre A, Pena J M, Muelas S, et al. l.earning hybridization strategies in evolutionary algorithms[J]. Intelligent Data Analysis, 2010. 14(3): 333-354.

引证文献7

1宋炯,金钊,杨维和.机器学习中加速强化学习的一种函数方法[J].云南大学学报（自然科学版）,2011,33(S2):176-181.
2耿晓龙,李长江.基于人工神经网络的并行强化学习自适应路径规划[J].科学技术与工程,2011,11(4):756-759. 被引量：7
3Quan LIU,Xudong YANG,Ling JING,Jin LI,Jiao LI.A parallel scheduling algorithm for reinforcement learning in large state space[J].Frontiers of Computer Science,2012,6(6):631-646.
4刘全,傅启明,杨旭东,荆玲,李瑾,李娇.一种基于智能调度的可扩展并行强化学习方法[J].计算机研究与发展,2013,50(4):843-851. 被引量：3
5YANG Xudong,LIU Quan,JING Ling,LI Jin,YANG Kai.A Scalable Parallel Reinforcement Learning Method Based on Divide-and-Conquer Strategy[J].Chinese Journal of Electronics,2013,22(2):242-246.
6刘全,肖飞,傅启明,伏玉琛,周小科,朱斐.基于自适应归一化RBF网络的Q-V值函数协同逼近模型[J].计算机学报,2015,38(7):1386-1396. 被引量：9
7季挺,张华.非参数化近似策略迭代并行强化学习算法[J].计算机工程,2018,44(11):313-320. 被引量：2

二级引证文献20

1刘耀,毛剑琳.动态环境下基于改进蚁群算法的路径规划研究[J].电子测量技术,2020,43(7):82-87. 被引量：5
2刘耀,毛剑琳.基于自适应变步长蚁群算法的路径规划研究[J].电子测量技术,2020,43(7):76-81. 被引量：4
3吴冰,钱立军,虞明,吴坚.基于RBF神经网络的自动泊车路径规划[J].合肥工业大学学报（自然科学版）,2012,35(4):459-462. 被引量：13
4谭宝成,王培.A~＊路径规划算法的改进及实现[J].西安工业大学学报,2012,32(4):325-329. 被引量：22
5朱斐,刘全,傅启明,伏玉琛.一种用于连续动作空间的最小二乘行动者-评论家方法[J].计算机研究与发展,2014,51(3):548-558. 被引量：9
6李玲,杜学绘,包义保,肖玮.基于构件的安全协议数据通路择优方法[J].计算机工程与设计,2015,36(11):2931-2937.
7徐圆,黄兵明,贺彦林.基于改进ELM的递归最小二乘时序差分强化学习算法及其应用[J].化工学报,2017,68(3):916-924. 被引量：6
8张昭昭,乔俊飞,余文.基于LM算法的在线自适应RBF网结构优化算法[J].控制与决策,2017,32(7):1247-1252. 被引量：11
9冉桂华,杨晔轩,殷浤益,马云龙,戴璐鸾,李蝶,杨元维.一种热力图的景区人流量动态监测方法[J].计算机与数字工程,2018,46(11):2329-2332. 被引量：10
10张昭昭,乔俊飞,余文.多层自适应模块化神经网络结构设计[J].计算机学报,2017,40(12):2827-2838. 被引量：12

1为您服务[J].电脑编程技巧与维护,2014(19):95-95.
2宋清昆,胡子婴.基于经验知识的Q-学习算法[J].自动化技术与应用,2006,25(11):10-12. 被引量：7
3郭艳卿,许志浩,王久君,孔祥维.基于混合字典学习的失配隐写分析方法[J].信息安全研究,2016,2(9):821-826.
4梅松青.基于自适应图的半监督学习方法[J].计算机系统应用,2014,23(2):173-177. 被引量：2
5刘宏义.用支持向量机建模学习过程[J].电子科技,2012,25(9):60-62.
6实用第一智慧密集[J].电脑编程技巧与维护,2014,0(21):96-96.
7杜荣,赵金旻.浅析计算机机房的维护与管理[J].经济技术协作信息,2008(19):125-125.
8李晓旭,李睿凡,冯方向,曹洁,王小捷.多视图有监督的LDA模型[J].电子学报,2014,42(10):2040-2044. 被引量：2
9张建明,刘阳春,吴宏林,李沛.基于Gabor特征与投影字典对学习的人脸识别算法[J].计算机工程与科学,2016,38(3):542-548. 被引量：2
10刘志雄,王雅芬,张煜.多种群果蝇优化算法求解自动化仓库拣选作业调度问题[J].武汉理工大学学报,2014,36(3):71-77. 被引量：20

计算机工程与应用

2009年第34期

浏览历史

内容加载中请稍等...

并行强化学习算法及其应用研究被引量：7

参考文献11

二级参考文献84

共引文献24

同被引文献37

引证文献7

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

并行强化学习算法及其应用研究 被引量：7

参考文献11

二级参考文献84

共引文献24

同被引文献37

引证文献7

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

并行强化学习算法及其应用研究被引量：7