基于多智能体强化学习的新强化函数设计被引量：4

A Reward Function Based on Reinforcement Learning of Multi-agent

下载PDF

导出

摘要为了提高强化学习算法在多智能体系统中的性能表现,针对典型的多智能体系统-Keepaway平台总是以失败告终的特点,受与之有相同特点的单智能体系统杆平衡系统所采用强化函数的启发,重新设计一种新的惩罚式的强化函数。新的强化函数在系统成功状态时设零值奖赏,失败状态时给与负值惩罚。基于新设计的强化函数的Sarsa(λ)算法成功应用在Keepaway平台上。仿真结果表明,新设计的强化函数在一定参数条件下有效提高了强化学习算法载Keepaway平台的性能表现,其最终的学习效果更好。 To improve the performance of the reinforcement learning method on multi-agent systems, thinking about the characteristic of Keepaway that always ended with failure, based on the reference of the reward function design pattern in the pole-balance system, a new punitive reward function is redesigned. The values of the reward function are zeroes when the system is at successful states, and the values are negatives when the system is at failed states. Sarsa（λ） algorithm based on the new reward function are successfully used on the Keepaway. The simulation results show that the new reward function based on some parameters is better, and improves the performance of the reinforcement learning effectively.

作者左国玉张红卫韩光胜

机构地区北京工业大学电子信息与控制工程学院

出处《控制工程》 CSCD 北大核心 2009年第2期239-242,共4页 Control Engineering of China

基金北京市教委科技重点发展基金资助项目(EM200610005019) 北京工业大学博士科研启动基金资助项目(52002011200708)

关键词 Keepaway 多智能体系统强化学习强化函数 ROBOCUP Keepaway multi-agent system reinforcement learning reward function Robocup

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1Sutton R S,Barto A G. Reinforcement learning[ M]. Cambridge,MA: MIT Press, 1998.
2Stone P, Sutton S R. Keepaway soccer: a machine learning testbed [ J ]. RoboCup-2001 :Robot Soccer World Cup V. 2002,2377:207- 237.
3Stone P, Kuhlmann G, Taylor M E , et al. Keepaway soccer : from machine learning testbed to benchmark [ J ]. RoboCup-2005 : Robot Soccer World Cup IX ,2006,4020:93-105.
4高阳.强化学习研究进展[M].∥机器学习及其应用.北京:清华大学出版社,2005:116-134.
5Kaelbling L P, Littman M L, Moore A W. Reinforcement learning: a survey[ J]. Joumal of Artificial Intelligence Research, 1996,4:237- 285.
6Sutton R S. Generalization in reinforcement learning:successful examples using sparse coarse coding [ J ]. Advances in Neural Information Processing Systems, 1996,8 : 1038-1044.
7Putennan M L. Markov decision problems[ M ]. NY, Wiley :1994.

同被引文献55

1李瑾,刘全,杨旭东,杨凯,翁东良.一种改进的平均奖赏强化学习方法在RoboCup训练中的应用[J].苏州大学学报（自然科学版）,2012,28(2):21-26. 被引量：2
2芦蓉,沈毅.一种改进的二维直方图的图像阈值分割方法[J].系统工程与电子技术,2004,26(10):1487-1490. 被引量：18
3周如益,高阳.一种基于性能势的无折扣强化学习算法[J].广西师范大学学报（自然科学版）,2006,24(4):58-61. 被引量：2
4高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
5谭优,王泽勇.图像阈值分割算法实用技术研究与比较[J].微计算机信息,2007(24):298-299. 被引量：45
6Richard S Sutton, Andrew G Barto. Reinforcement Learn- ing: An Introduction[ M]. MIT Press, 1998.
7Leslie Pack Kaelbling, Michael L Littman,Andrew W Moore. Reinforcement learning: A survey[J]. Journal of Artificial In- telligence Research, 1996,4( 1 ) :237-255.
8Szepesvari C. Algorithms for reinforcement learning:Synthesis lectures on artificial intelligence and machine learning[M].San Rafael:Morgan & Claypool Pulishers,2009.2-3.
9Chatterjee K,Majumadar R,Henzinge A T. Stochastic limitaverage games are in exptime[J].International Journal in Game Theory,2007,(02):219-234.
10Tadepalli P,D OK. Model-based average reward reinforcement learning[J].Artificial Intelligence,1998,(1-2):177-224.

引证文献4

1陈鹏.一种基于Q学习的图像阈值确定方法[J].计算机与现代化,2013(6):113-115. 被引量：1
2杨宛璐,陈玮,黄浩晖,王广涛.性能势算法研究及在RoboCup中的应用[J].计算机工程与设计,2014,35(3):905-908.
3李学俊,陈士洋,张以文,李龙澍.Keepaway抢球任务中基于策略重用的迁移学习算法[J].计算机科学,2015,42(4):190-193. 被引量：1
4李学俊,陈士洋,张以文,李龙澍.基于强化学习的RoboCup Keepaway高层抢球策略[J].计算机应用与软件,2015,32(10):101-104. 被引量：1

二级引证文献3

1杨建,王萍,于雅鑫,高买军.基于RoboCup2D仿真的球队策略研究[J].计算机系统应用,2022,31(1):295-302.
2何立,沈亮,李辉,王壮,唐文泉.强化学习中的策略重用:研究进展[J].系统工程与电子技术,2022,44(3):884-899. 被引量：4
3宋朋燃,赵晓明,刘策.黄土微结构SEM图像分析中的影响因素研究[J].城市地质,2024,19(2):218-224.

1连传强,徐昕,吴军,李兆斌.面向资源分配问题的Q-CF多智能体强化学习[J].智能系统学报,2011,6(2):95-100. 被引量：1
2范波,潘泉,张洪才.多智能体学习中基于知识的强化函数设计方法[J].计算机工程与应用,2005,41(3):77-79. 被引量：3
3李龙澍,葛瑞峰,王慧萍.基于神经网络的批强化学习在Robocup中的应用[J].计算机技术与发展,2009,19(7):98-101. 被引量：3
4张文旭,马磊,王晓东.基于事件驱动的多智能体强化学习研究[J].智能系统学报,2017,12(1):82-87. 被引量：9
5赵晓华,李振龙,陈阳舟,荣建.Q学习中基于模糊规则的强化函数设计方法[J].模式识别与人工智能,2008,21(2):254-259.
6李学俊,陈士洋,张以文,李龙澍.基于强化学习的RoboCup Keepaway高层抢球策略[J].计算机应用与软件,2015,32(10):101-104. 被引量：1
7程晓北,顾国昌.多智能体分层强化学习研究进展[J].边疆经济与文化,2007(5):73-75.
8李瑾,刘全,杨旭东,杨凯,翁东良.一种改进的平均奖赏强化学习方法在RoboCup训练中的应用[J].苏州大学学报（自然科学版）,2012,28(2):21-26. 被引量：2
9李学俊,陈士洋,张以文,李龙澍.Keepaway抢球任务中基于策略重用的迁移学习算法[J].计算机科学,2015,42(4):190-193. 被引量：1
10宋炯,金钊.采用多智能体强化学习的交通信号优化控制[J].制造业自动化,2012,34(17):13-16. 被引量：1

控制工程

2009年第2期

浏览历史

内容加载中请稍等...

基于多智能体强化学习的新强化函数设计被引量：4

参考文献7

同被引文献55

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于多智能体强化学习的新强化函数设计 被引量：4

参考文献7

同被引文献55

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于多智能体强化学习的新强化函数设计被引量：4