对称协调博弈问题的多智能体强化学习被引量：2

Multi-agents reinforcement learning for symmetrical coordination

下载PDF

导出

摘要针对多机器人协调问题,利用协调博弈中智能体策略相似性,提出智能体的高阶信念修正模型和学习方法PEL,使智能体站在对手角度进行换位推理,进而根据信念修正将客观观察行为和主观信念推理结合起来。证明了信念修正模型的推理置信度只在0和1两个值上调整即可协调成功。以多机器人避碰为实验背景进行仿真,表明算法比现有方法能够取得更好的协调性能。 Considering the problem of robots coordination games,the paper puts forward an agents＇ belief revision model and a learning algorithm Position-Exchanging Learning（PEL） which is based on the similarity of agents＇ strategies in coordination games. By position-exchanging,each agent stands from the viewpoint of its opponent and infers opponents＇ actions.The belief revision model combines the objective observed actions and subjective inferred actions.Coordination is assured by adjusting the belief de- gree to be 0 or 1.The algorithm PEL is tested in simulations that robots coordinate to avoid collision,and the results prove it performs better than present methods.

作者王云韩伟

机构地区南京财经大学信息工程学院

出处《计算机工程与应用》 CSCD 北大核心 2008年第36期230-233,248,共5页 Computer Engineering and Applications

基金国家自然科学基金(No.70802025) 江苏省教育厅"青蓝工程"项目江苏省教育厅自然科学指导计划项目(No.07KJD520070)~~

关键词多智能体系统强化学习协调博弈 Multi-Agents System（MAS） reinforcement learning coordination games

分类号 TP391 [自动化与计算机技术—计算机应用技术] TP24 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献13

1Parker L E.Heterogeneous multi-robot cooperation[D].MIT,USA, 1994.
2朱庆保.全局未知环境下多机器人运动蚂蚁导航算法[J].软件学报,2006,17(9):1890-1898. 被引量：33
3Stilwell D J,Bay J S.Toward the development of a material transport system using swarms of ant-like robots[C]//Proceedings of the IEEE International Conference on Robotics and Automation,Atlanta, 1993 : 766-771.
4Fujii T,Arai Y,Asama H.Muhilayer reinforcement learning for complicated collision avoidance problems.
5Littman M L.Markov games as a framework for multi-agent reinforcement learning [C]//Proc 11th Internati onal Conference on Machine Learning.N J, Morgan Kaufmann: San Mateo, 1994 : 157-163.
6刘海涛,洪炳熔,朴松昊,王雪梅.不确定性环境下基于进化算法的强化学习[J].电子学报,2006,34(7):1356-1360. 被引量：12
7Bowling M,Veloso M.Rational and convergent learning in stochastic games[C]//Veloso M.Proceedings of International Joint Conference of Artificial Intelligence, Seattle, WA, 2001 : 1021-1026.
8Bowling M,Veloso M.Multiagent learning using a variable learning rate[J].Artificial Intelligence,2002,136:215-250.
9Fudenberg D,Levine D K.The theory of learning in games [M]. Cambridge, MA: MIT Press, 1999.
10韩伟,陈优广,姜昌华.基于内省推理的多agent在线学习方法[J].模式识别与人工智能,2007,20(2):254-260. 被引量：5

二级参考文献26

1Littman M L,Cassandra A,Kaelbling L.Learning policies for partially observable environments:Scaling up[A].Proceedings of the Twelfth International Conference on Machine Learning[C].San Francisco,CA:Morgan Kaufmann Publishers,1995.362-370.
2Pineau J,Gordon G,Thrun S.Point-based value iteration:an anytime algorithm for POMDPs[A].Proceedings of International Joint Conference on Artificial Intelligence[C].Acapulco,Mexico:AAAI,2003.1025-1032.
3Guo M,et al.A new Q-learning algorithm based on the metropolis criterion[J].IEEE Trans.on Systems,Man and Cybernetics,2004,34(5):2140-2143.
4Moscato P.Memetic Algorithms:A Short Introduction New Ideas in Optimization[M].London,UK:McGraw-Hill,1999
5Vapnik V N.Statistical Learning Theory[M].New York:Wiley-Inter Science,1998.
6Frank H F.Tuning of the structure and parameters of a neural network using an improved genetic algorithm[J].IEEE Trans.on Neural Network,2003,14 (1):79-88.
7Burago D,et al.On the complexity of partially observed Markov decision processes[J].Theoretical Computer Science,1996,157(2):161-183.
8Kaelbling L P,Littman M L,and Cassandra A R.Planning and acting in partially observable stochastic domains[J].Artificial Intelligence,1998,101:99-134.
9Zhang N L,Zhang W.Speeding up the convergence of value iteration in partially observable Markov decision processes[J].Journal of AI Research,2001,14:29 -51.
10Littman M L. Markov Games as a Framework for Multi-Agent Reinforcement Learning// Cohen W W, Hirsh H, eds. Proc of the 11th International Conference on Machine Learning. New Brunswick, USA, 1994:157-163

共引文献46

1司应涛,朱庆保,国海涛.基于正反馈遗传算法的机器人全局路径规划[J].计算机工程与应用,2008,44(1):54-56. 被引量：5
2韩伟.基于边界样本协调的多智能体合作学习[J].模式识别与人工智能,2008,21(1):111-115.
3张小艳,周筱媛,魏娟.煤矿救援机器人全局路径规划[J].西安科技大学学报,2008,28(2):323-326. 被引量：14
4侯清涛,厉广伟,李金屏.Robocup中型组机器人足球技术探讨[J].济南大学学报（自然科学版）,2008,22(3):270-275. 被引量：5
5国海涛,朱庆保,司应涛.一种蚂蚁遗传融合的机器人路径规划新算法[J].小型微型计算机系统,2008,29(10):1838-1841. 被引量：9
6张亚鸣,雷小宇,杨胜跃,樊晓平,瞿志华,贾占朝.多机器人路径规划研究方法[J].计算机应用研究,2008,25(9):2566-2569. 被引量：17
7王云,韩伟.一种基于划分和集成思想的多智能体强化学习[J].南京师范大学学报（工程技术版）,2008,8(4):59-62. 被引量：1
8梁明,徐守江.微粒群与蚂蚁融合的机器人路径规划新算法[J].计算机工程与应用,2009,45(6):43-45. 被引量：6
9韩伟.效用驱动的Markov强化学习[J].计算机工程与应用,2009,45(4):42-44.
10蔡文彬,朱庆保.未知环境下基于快速搜索随机树的机器人路径滚动规划[J].南京师范大学学报（工程技术版）,2009,9(2):79-83. 被引量：3

同被引文献12

1张克,刘永才,关世义.多智能体系统在导弹攻防对抗仿真中应用的可行性研究[J].战术导弹技术,2001(6):59-65. 被引量：8
2万自明.攻防对抗系统仿真发展情况分析[J].战术导弹技术,1996(3):44-58. 被引量：1
3黄涛.博弈论教程[M].北京:首都经济贸易大学出版社,2004.
4BASILICO N, CATTI N, AMIGONI F, AMIGONI F. Leader-follower strategies for robotic patrolling in environments with arbitrary topologies [C]//Proc AAMAS. [S. l.], 2008 : 57-64.
5BEETZ M, BUCK S, HANEK R. The AGILO robot soccer team: computational principles, experiences, and perspectives[C]//Proc AAMAS, [ S. l. ], 2009: 805- 813.
6李光久.博弈论基础[M].镇江:首都经济贸易大学出版社,2008:98-100.
7徐心和,邓志立,王骄,徐长明,刘纪红,马宗民.机器博弈研究面临的各种挑战[J].智能系统学报,2008,3(4):288-293. 被引量：41
8柳长安,王静,刘春阳.基于合作4人博弈的足球机器人协作防守模型研究[J].系统仿真学报,2009,21(1):132-134. 被引量：3
9邹蕾,张先锋.人工智能及其发展应用[J].信息网络安全,2012(2):11-13. 被引量：209
10曹洪武,彭浩然,王伟.基于FDMS理论的任务级弹道导弹仿真建模框架研究[J].战术导弹技术,2016(5):101-108. 被引量：1

引证文献2

1史晓茹,侯媛彬,张涛.不完全信息博弈的机器人对抗决策[J].智能系统学报,2011,6(2):147-151. 被引量：7
2卢锐轩,孙莹,杨奇,王壮,吴昭欣,李辉.基于人工智能技术的智能自博弈平台研究[J].战术导弹技术,2019(2):47-52. 被引量：9

二级引证文献16

1李争,宋振江,杨俊.矿-粮复合区生态补偿主体多阶段信号传递博弈研究[J].生态经济,2017,33(6):133-139.
2李争,宋振江,杨俊.矿粮复合区生态补偿各方利益主体多阶段动态博弈分析[J].科技管理研究,2017,37(13):215-222. 被引量：3
3朱泽宇,陆建波,杨洲,钟智,滕玲.一种面向多机器人对抗博弈的求解算法[J].现代电子技术,2018,41(23):165-168. 被引量：2
4王明宇.基于博弈思维的雷达智能探测概念与研究思路[J].现代雷达,2019,41(10):1-7. 被引量：5
5张小川,王宛宛,彭丽蓉.一种军棋机器博弈的多棋子协同博弈方法[J].智能系统学报,2020,15(2):399-404. 被引量：5
6吴昭欣,李辉,王壮,陶伟,吴昊霖,侯贤乐.基于深度强化学习的智能仿真平台设计[J].战术导弹技术,2020(4):193-200. 被引量：6
7陈磊,王志远,黄嘉龙,汤浩楠,陈卫峰.基于中国象棋机器人的人工智能实验平台设计[J].无线电工程,2020,50(10):839-842. 被引量：2
8高天孚,孔军,邓尧文,黄田力,李壮,黄珊琳.人工智能技术在潜艇作战系统中应用分析[J].舰船科学技术,2020,42(11):120-123. 被引量：1
9李喆,邓志均,赵大海.基于AI的电磁频谱战OODA环路优化[J].战术导弹技术,2021(1):115-120. 被引量：3
10聂凯,曾科军,孟庆海,魏超.人机对抗智能技术最新进展及军事应用[J].兵器装备工程学报,2021,42(6):6-11. 被引量：6

1连传强,徐昕,吴军,李兆斌.面向资源分配问题的Q-CF多智能体强化学习[J].智能系统学报,2011,6(2):95-100. 被引量：1
2韩伟,陈优广,姜昌华.基于内省推理的多agent在线学习方法[J].模式识别与人工智能,2007,20(2):254-260. 被引量：5
3杨宁,郭雷,方俊,杜亚勤.语义Web作为背景知识的本体匹配[J].西安工业大学学报,2011,31(2):174-178. 被引量：1
4谭瑛,曾明,赵昌,宋阳.三轴转台测角系统的软件设计[J].黑龙江自动化技术与应用,1997,16(4):48-51.
5张文旭,马磊,王晓东.基于事件驱动的多智能体强化学习研究[J].智能系统学报,2017,12(1):82-87. 被引量：10
6李勇,蔡梦思,李黎.基于协调博弈的交通拥塞传播临界值研究[J].计算机应用研究,2016,33(7):1971-1973. 被引量：5
7李勇,蔡梦思,李黎,邹凯.不同信息共享程度下交通拥塞控制研究[J].计算机工程与科学,2016,38(7):1391-1397. 被引量：2
8程晓北,顾国昌.多智能体分层强化学习研究进展[J].边疆经济与文化,2007(5):73-75.
9邓娜,程渤,陈俊亮.业务流程执行语言中流程模板的生成[J].北京邮电大学学报,2011,34(6):42-46.
10宋炯,金钊.采用多智能体强化学习的交通信号优化控制[J].制造业自动化,2012,34(17):13-16. 被引量：1

计算机工程与应用

2008年第36期

浏览历史

内容加载中请稍等...

对称协调博弈问题的多智能体强化学习被引量：2

参考文献13

二级参考文献26

共引文献46

同被引文献12

引证文献2

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

对称协调博弈问题的多智能体强化学习 被引量：2

参考文献13

二级参考文献26

共引文献46

同被引文献12

引证文献2

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

对称协调博弈问题的多智能体强化学习被引量：2