基于后悔值的多Agent冲突博弈强化学习模型被引量：6

Reinforcement Learning Model Based on Regret for Multi-Agent Conflict Games

下载PDF

导出

摘要对于冲突博弈,研究了一种理性保守的行为选择方法,即最小化最坏情况下Agent的后悔值.在该方法下,Agent当前的行为策略在未来可能造成的损失最小,并且在没有任何其他Agent信息的条件下,能够得到Nash均衡混合策略.基于后悔值提出了多Agent复杂环境下冲突博弈的强化学习模型以及算法实现.该模型中通过引入交叉熵距离建立信念更新过程,进一步优化了冲突博弈时的行为选择策略.基于Markov重复博弈模型验证了算法的收敛性,分析了信念与最优策略的关系.此外,与MMDP(multi-agent markov decision process)下Q学习扩展算法相比,该算法在很大程度上减少了冲突发生的次数,增强了Agent行为的协调性,并且提高了系统的性能,有利于维持系统的稳定. For conflict game, a rational but conservative action selection method is investigated, namely, minimizing regret function in the worst case. By this method the loss incurred possibly in future is the lowest under this very policy, and Nash equilibrium mixed policy is obtained without information about other agents. Based on regret, a reinforcement learning model and its algorithm for conflict game under multi-agent complex environment are put forward. This model also builds agents＇ belief updating process on the concept of cross entropy distance, which further optimizes action selection policy for conflict games. Based on Markov repeated game model, this paper demonstrates the convergence property of this algorithm, and analyzes the relationship between belief and optimal policy. Additionally, compared with extended Q-learning algorithm under MMDP （multi-agent markov decision process）, the proposed algorithm decreases the number of conflicts dramatically, enhances coordination among agents, improves system performance, and helps to maintain system stability.

作者肖正张世永

机构地区复旦大学计算机与信息技术系

出处《软件学报》 EI CSCD 北大核心 2008年第11期2957-2967,共11页 Journal of Software

关键词 MARKOV对策强化学习冲突博弈冲突消解 Markov game reinforcement learning conflict game conflict resolving

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1高阳,周志华,何佳洲,陈世福.基于Markov对策的多Agent强化学习模型及算法研究[J].计算机研究与发展,2000,37(3):257-263. 被引量：30
2张双民,石纯一.一种基于特征向量提取的FMDP模型求解方法[J].软件学报,2005,16(5):733-743. 被引量：3

二级参考文献25

1Parr K. Policy iteration for factored MDPs. In: Proc. of the 16th Conf. on Uncertainty in Artificial Intelligence (UAI00). Stanford,2000. 326-334. http://ai.stanford.edu/～koller/papers/uai00kp.html
2Parr K. Computing factored value functions for policies in structured MDPs. In: Int'l Joint Conf. on Artificial Intelligence(IJCAI'99). Morgan Kaufmann Publishers, 1999.1332-1339. http://ai.stanford.edu/～koller/papers/ijcai99kp.html
3de Farias R. Approximate dynamic programming via linear programming. In: Advances in Neural Information Processing Systems14. Cambridge: MIT Press, 2002. http://www.core.org.cn/NR/rdonlyres/Mechanical-Engineering/2-997Spring2004/DF5542A5-BBCC-4BAB-ADBF-41AB0FDA6F95/0/most_uhan_slides.pdf
4Guestrin CE, Venkataraman S, Koller D. Context specific multiagent coordination and planning with factored MDPS. In:AAAI-2002 The 18th National Conf. on Artificial Intelligence. Edmonton, 2002. 253-259. http://www-2.cs.cmu.edu/～shobha/research/aaai02.pdf
5Guestrin CE, Koller D, Parr R. Efficient solution algorithms for factored MDPs. Journal of Artificial Intelligence Research, 2003,19:399-468.
6Guestrin CE, Koller D, Parr R. Multiagent planning with factored MDPs. In: Advances in Neural Information Processing Systems(NIPS-14). Vancouver, 2001. 1523-1530. http://robotics.stanford.edu/～koller/papers/nips01gkp.html
7Guestrin CE, Koller D, Gearhart C, Kanodia N. Generalizing plans to new environments in relational MDPs. In: Int'l Joint Conf. on Artificial Intelligence (IJCAI 2003). Acapulco, 2003. 1003-1010. http://web.engr. oregonstate.edu/～hamann/generalizing_plans_rmdp.pdf
8Sallans B. Reinforcement learning for factored Markov decision processes [Ph.D. Thesis]. Toronto: University of Toronto, 2002.
9Maes S, Tuyls K, Manderick B. Reinforcement learning in large state spaces: Simulated robotic soccer as a testbed. Lecture Notes in Artificial Intelligence, RoboCup 2002. Fukuoka: Springer-Verlag, 2002. http://como.vub.ac.be:8080/Publications/uploads/1/rlrobo02.ps
10Manderick TM. Q-Learning in simulated robotic soccer: Large state spaces and incomplete information. In: Proc. of the ICMLA2002. Las Vegas, 2002. 226-232. http:∥como.vub.ac.be:8080/Publications/uploads/1/icmla02.ps

共引文献31

1郝宗波,洪炳镕,周彤.基于模糊Q-学习的多智能体协作策略研究[J].哈尔滨工业大学学报,2004,36(7):931-933. 被引量：1
2陈雪江,杨东勇.基于强化学习的多智能体协作实现[J].浙江工业大学学报,2004,32(5):516-519. 被引量：2
3陈雪江,杨东勇,范荣真.多智能体协作的两层强化学习实现方法[J].计算机工程,2005,31(3):192-194. 被引量：4
4郭锐,彭军,吴敏.增强Q学习在非确定马尔可夫系统寻优问题中的应用[J].计算机工程与应用,2005,41(13):36-38. 被引量：4
5宋梅萍,顾国昌,张国印.随机博弈框架下的多agent强化学习方法综述[J].控制与决策,2005,20(10):1081-1090. 被引量：13
6郭锐,吴敏,彭军,彭姣,曹卫华.一种新的多智能体Q学习算法[J].自动化学报,2007,33(4):367-372. 被引量：13
7宋梅萍,顾国昌,张国印,刘海波.一般和博弈中的合作多agent学习[J].控制理论与应用,2007,24(2):317-321. 被引量：7
8李畅,聂定远,刘东.马尔可夫决策在Web服务选择中的应用[J].高等函授学报（自然科学版）,2007,20(2):38-40.
9郑宇,罗四维,吕子昂.强化学习算法的稳定状态空间控制[J].计算机应用,2008,28(5):1328-1330.
10孙英娟,蒲东兵,孙英慧,李春宜,周春光.邮件过滤Agent的设计[J].吉林大学学报（信息科学版）,2008,26(6):576-579. 被引量：1

同被引文献63

1李伟,何雪松,叶庆泰,朱昌明.基于先验知识的强化学习系统[J].上海交通大学学报,2004,38(8):1362-1365. 被引量：5
2何小贤,朱云龙,王玫.群体智能中的知识涌现与复杂适应性问题综述研究[J].信息与控制,2005,34(5):560-566. 被引量：21
3宋梅萍,顾国昌,张国印.随机博弈框架下的多agent强化学习方法综述[J].控制与决策,2005,20(10):1081-1090. 被引量：13
4王玫,朱云龙,何小贤.群体智能研究综述[J].计算机工程,2005,31(22):194-196. 被引量：41
5吴敏,曹卫华,桂卫华,彭军,佘锦华.一种新的多智能体系统结构及其在RoboCup中的应用[J].自动化学报,2006,32(5):686-694. 被引量：3
6黄炳强,曹广益,王占全.强化学习原理、算法及应用[J].河北工业大学学报,2006,35(6):34-38. 被引量：19
7郭锐,吴敏,彭军,彭姣,曹卫华.一种新的多智能体Q学习算法[J].自动化学报,2007,33(4):367-372. 被引量：13
8刘弘.面向普适计算的多Agent协同设计系统模型[J].计算机辅助设计与图形学学报,2007,19(6):804-810. 被引量：3
9CHU C H, Wu P H, Hsu Y C. Multi-agent col- laborative 3D design with geometric model at dif-ferent levels of detail[J]. Robotics and Computer- Integrated Manufacturing, 2009, 25(2)" 334-347.
10WANG J X, TANG M X, SONG L N, et al. Design and implementation of an agent-based collaborative product design system[J]. Computers in Industry, 2009, 60(7): 520-535.

引证文献6

1柴毅,利节,王嘉骐.基于后悔值的多蚁协作关联强化学习模型[J].系统工程,2010,28(4):64-67. 被引量：1
2刘弘,郑向伟,王吉华.多Agent协同设计系统学习机制[J].兰州大学学报（自然科学版）,2012,48(4):91-97.
3段勇,徐心和.基于多智能体强化学习的多机器人协作策略研究[J].系统工程理论与实践,2014,34(5):1305-1310. 被引量：22
4吴静媛,孙亮,杨树,李岩.面向车路群智协同的运营测试融合体系[J].无线电工程,2022,52(1):53-59. 被引量：2
5Linghui Zeng,Fuqiang Yao,Jianzhao Zhang,Min Jia.Dynamic Spectrum Access Based on Prior Knowledge Enabled Reinforcement Learning with Double Actions in Complex Electromagnetic Environment[J].China Communications,2022,19(7):13-24. 被引量：4
6罗睿卿,曾坤,张欣景.稀疏异质多智能体环境下基于强化学习的课程学习框架[J].计算机科学,2024,51(1):301-309.

二级引证文献29

1徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：11
2吴军,王丹,李健,杨丰梅.基于强化学习的危化品运输路径选择博弈分析[J].系统工程理论与实践,2015,35(2):388-393. 被引量：11
3王砚麟,赵志刚,石广田.多机器人协调吊运系统控制优化仿真[J].计算机仿真,2015,32(10):404-408. 被引量：8
4Lin Zhang,Kaili Rao,Ruchuan Wang.T-QoS-aware based parallel ant colony algorithm for services composition[J].Journal of Systems Science & Complexity,2015,28(5):1100-1106. 被引量：2
5李六杏.基于Multi-Agent的分布式微电网设计与通信实现[J].嘉兴学院学报,2015,27(6):90-93.
6孙健,丁日佳,陈艳艳.M/M/c型与M/M/1型排队系统对比仿真[J].北京工业大学学报,2016,42(9):1324-1331. 被引量：7
7赵辉,刘雅喆.改进的Q学习算法在轨迹规划中的应用[J].吉林大学学报（信息科学版）,2016,34(5):697-702. 被引量：2
8赵辉,赵玉峰.一种改进的多智能体Q学习算法[J].自动化与仪器仪表,2017(4):25-27. 被引量：5
9郭宪.基于深度增强学习的智能体行为演进研究综述[J].中国新通信,2017,19(17):50-54. 被引量：4
10闫雪飞,李新明,刘东,王寿彪.基于Nash-Q的网络信息体系对抗仿真技术[J].系统工程与电子技术,2018,40(1):217-224. 被引量：7

1柴毅,利节,王嘉骐.基于后悔值的多蚁协作关联强化学习模型[J].系统工程,2010,28(4):64-67. 被引量：1
2李月娟,吕永健,常迁臻,朱李云.基于MMDP的无人作战飞机任务分配模型研究[J].计算机应用与软件,2013,30(7):276-279. 被引量：4
3郑淑丽,韩江洪,骆祥峰,蒋建文.基于强化学习的多Agent协作研究[J].小型微型计算机系统,2003,24(11):1986-1988. 被引量：5
4李镇宇,陈小平.基于Markov对策的强化学习及其在RoboCup中的应用[J].计算机工程与应用,2005,41(27):202-204.
5张化祥,黄上腾.基于强化学习与对策的多代理协同技术[J].计算机科学,2004,31(8):116-119. 被引量：3
6王国利,胡丹丹,杨超.高速公路上紧急救援站的选址[J].工业工程,2011,14(4):151-153. 被引量：1
7孙魁,吴成东.强化学习模型及其在避障中的应用[J].山东工业技术,2016(1):261-263.
8李晓萌,杨煜普,许晓鸣.基于Markov对策和强化学习的多智能体协作研究[J].上海交通大学学报,2001,35(2):288-292. 被引量：7
9陈魁,刘久富,苏青琴,刘蓉.基于Markov对策的机械臂二维路径规划[J].计算机技术与发展,2012,22(5):57-59.
10刘久富,陈魁,苏青琴,梁娟娟,王志胜.基于Markov对策的码垛机器人三维路径规划[J].中国机械工程,2012,23(7):851-855. 被引量：4

软件学报

2008年第11期

浏览历史

内容加载中请稍等...

基于后悔值的多Agent冲突博弈强化学习模型被引量：6

参考文献2

二级参考文献25

共引文献31

同被引文献63

引证文献6

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于后悔值的多Agent冲突博弈强化学习模型 被引量：6

参考文献2

二级参考文献25

共引文献31

同被引文献63

引证文献6

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于后悔值的多Agent冲突博弈强化学习模型被引量：6