基于博弈论及Q学习的多Agent协作追捕算法被引量：5

Multi-agent collaborative pursuit algorithm based on game theory and Q-learning

下载PDF

导出

摘要多Agent协作追捕问题是多Agent协调与协作研究中的一个典型问题。针对具有学习能力的单逃跑者追捕问题,提出了一种基于博弈论及Q学习的多Agent协作追捕算法。首先,建立协作追捕团队,并构建协作追捕的博弈模型;其次,通过对逃跑者策略选择的学习,建立逃跑者有限的Step-T累积奖赏的运动轨迹,并把运动轨迹调整到追捕者的策略集中;最后,求解协作追捕博弈得到Nash均衡解,每个Agent执行均衡策略完成追捕任务。同时,针对在求解中可能存在多个均衡解的问题,加入了虚拟行动行为选择算法来选择最优的均衡策略。C#仿真实验表明,所提算法能够有效地解决障碍环境中单个具有学习能力的逃跑者的追捕问题,实验数据对比分析表明该算法在同等条件下的追捕效率要优于纯博弈或纯学习的追捕算法。 The multi-agent collaborative pursuit problem is a typical problem in the multi-agent coordination and collaboration research.Aiming at the pursuit problem of single escaper with learning ability,a multi-agent collaborative pursuit algorithm based on game theory and Q-learning was proposed.Firstly,a cooperative pursuit team was established and a game model of cooperative pursuit was built.Secondly,through the learning of the escaper’s strategy choices,the trajectory of the escaper’s limited Step-T cumulative reward was established,and the trajectory was adjusted to the pursuer’s strategy set.Finally,the Nash equilibrium solution was obtained by solving the cooperative pursuit game,and the equilibrium strategy was executed by each agent to complete the pursuit task.At the same time,in order to solve the problem that there may be multiple equilibrium solutions,the virtual action behavior selection algorithm was added to select the optimal equilibrium strategy.C#simulation experiments show that,the proposed algorithm can effectively solve the pursuit problem of single escaper with learning ability in the obstacle environment,and the comparative analysis of experimental data shows that the pursuit efficiency of the algorithm under the same conditions is better than that of pure game or pure learning.

作者郑延斌樊文鑫韩梦云陶雪丽 ZHENG Yanbin;FAN Wenxin;HAN Mengyun;TAO Xueli(College of Computer and Information Engineering,Henan Normal University,Xinxiang Henan 453007,China;Henan Engineering Laboratory of Smart Commerce and Internet of Things Technologies,Xinxiang Henan 453007,China)

机构地区河南师范大学计算机与信息工程学院智慧商务与物联网技术河南省工程实验室

出处《计算机应用》 CSCD 北大核心 2020年第6期1613-1620,共8页 journal of Computer Applications

基金国家自然科学基金资助项目(U1604156) 河南师范大学青年基金资助项目(2017QK20)。

关键词多AGENT 协作追捕博弈论 Q学习强化学习 multi-agent collaborative pursuit game theory Q-learning reinforcement learning

分类号 TP24 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献5

1郑延斌,陶雪丽,段领玉,李波.基于博弈论及惩罚机制的多Agent协作控制算法[J].河南师范大学学报（自然科学版）,2015,43(6):146-151. 被引量：2
2程志,张志安,李金芝,江涛.改进人工势场法的移动机器人路径规划[J].计算机工程与应用,2019,55(23):29-34. 被引量：45
3肖文雅,尚艳玲.一种基于多Agent的有效负载均衡的WebGIS体系模型[J].河南师范大学学报（自然科学版）,2015,43(4):151-156. 被引量：1
4李珺,潘启树,周浦城,洪炳镕.未知环境下多机器人协作追捕算法[J].电子学报,2011,39(3):567-574. 被引量：4
5Le Pham Tuyen,Hoang Huu Viet,Sang Hyeok An,Seung Gwan Lee,Dong-Han Kim,Tae Choong Chung.Univector field method-based multi-agent navigation for pursuit problem in obstacle environments[J].Journal of Central South University,2017,24(4):1002-1012. 被引量：3

二级参考文献42

1周浦城,洪炳镕,王月海.动态环境下多机器人合作追捕研究[J].机器人,2005,27(4):289-295. 被引量：16
2李淑琴,王欢,李伟,杨静宇.基于动态角色的多移动目标围捕问题算法研究[J].系统仿真学报,2006,18(2):362-365. 被引量：12
3周浦城,洪炳镕,黄庆成.一种新颖的多agent强化学习方法[J].电子学报,2006,34(8):1488-1491. 被引量：8
4Yamaguchi H. A cooperative hunting behavior by mobile-robot troops[ J]. International Journal of Robotics Research, 1999, 8 (8) :931 -940.
5Kopparty S, Ravishankar C V.A framework for pursuit evasion games in Rn [ J ]. Information Processing Letters 2005,96 ( 3 ) : 114 -122.
6Kok J R, Vlassis N. Sparse Cooperative Q-learning[ A ]. Pro-ceedings of the 21st International Conference on Machine Learning[ C]. Banff, Alberta, Canada: Mrr Press, 2OM. 61 -68.
7Yuko Ishiwaka, Takamasa Sato, Yukinori Kakazu. An approach to the pursuit problem on a heterogeneous mulfiagent system using reinforcement learning [ J ]. Robotics and Autonomous Systems, 2003,3(4) : 245 -256.
8Vidal R, Shakemia O, Kim H J, Shim D H, Sastry S. Proba-bifistic pursuit-evasion games: theory, implementation and ex-perimental evaluation [ J ]. IEEE Transactions on Robotics and Automation, 2002,18 (5) : 662 -669.
9Gdnton C. A Tested for Investigating Agent Effectiveness in a Multiagent Pursuit Game[ D]. Victoria, Australia: The Universi-ty of Melbourne, 1996.
10Luca Schenato, Songhwai Oh , Shankar Sastry, Prasanta Bose. Swarm coordination for pursuit evasion games using sensor net-works[ A]. Proceedings of the 2005 1EEE International Confer-ence on Robotics and Automation[ C]. Barcelona, Spain: IEEE. Press,2005.2493-2498.

共引文献50

1张强,刘晓宇,张南庆,何鸣.基于改进人工势场算法的AUV路径规划[J].中国航海,2021,44(2):134-141. 被引量：5
2方宝富,潘启树,洪炳镕,丁磊.基于活跃区域的多机器人分层追逃算法[J].华中科技大学学报（自然科学版）,2011,39(S2):335-339.
3柯文德,彭志平,陈珂,蔡则苏.新的多移动机器人任务协商模型[J].计算机应用,2013,33(2):346-349.
4张红强,章兢,周少武,曾照福,吴亮红.基于简化虚拟受力模型的未知复杂环境下群机器人围捕[J].电子学报,2015,43(4):665-674. 被引量：4
5刘文安,周晶晶.环状有界的Small Nim博弈[J].河南师范大学学报（自然科学版）,2018,46(2):22-25. 被引量：1
6LI Meng,LI Shi-lei,GE Yuan-zheng.High-quality trajectory planning for heterogeneous individuals[J].Journal of Central South University,2019,26(3):654-664.
7赵岩,吴建峰,高育鹏.基于多智能体导航的高超飞行器信息融合方法[J].系统工程与电子技术,2020,42(2):405-413. 被引量：4
8郭银景,刘琦,鲍建康,徐锋,吕文红.基于人工势场法的AUV避障算法研究综述[J].计算机工程与应用,2020,56(4):16-23. 被引量：28
9王翼虎,王思明.基于改进人工势场法的机器人实时路径规划[J].兰州交通大学学报,2020,39(3):60-66. 被引量：8
10郭银景,鲍建康,刘琦,屈衍玺,吕文红.AUV实时避障算法研究进展[J].水下无人系统学报,2020,28(4):351-358. 被引量：8

同被引文献45

1游航航,余敏建,吕艳,杨海燕,韩其松.基于改进灰狼算法优化的UKF在空战轨迹预测中的应用[J].战术导弹技术,2020(1):91-98. 被引量：7
2晋荣东.Dialectic:辩证逻辑的新形态[J].湖南科技大学学报（社会科学版）,2006,9(6):32-38. 被引量：2
3QIU HuaXin,WEI Chen,DOU Rui,ZHOU ZiWei.Fully autonomous flying: from collective motion in bird flocks to unmanned aerial vehicle autonomous swarms[J].Science China Chemistry,2015,58(12):207-209. 被引量：12
4张旭,贾磊磊,陈群.关于多机器人围捕协调路径策略研究[J].计算机仿真,2016,33(6):357-361. 被引量：2
5万小龙,周红艳.雷歇尔的辩证法思想探析--过程的辩证法与辩证的过程论[J].马克思主义与现实,2017,69(4):102-107. 被引量：2
6黎阳,王哲,张楚文,戴惠辰,徐文佺,姬雪枫,万颖,刘斌.面向车载自组织网络路由的轨迹预测算法[J].计算机研究与发展,2017,54(11):2421-2433. 被引量：7
7陈翔,王莉萍,顾庆,王赞,倪超,刘望舒,王秋萍.跨项目软件缺陷预测方法研究综述[J].计算机学报,2018,41(1):254-274. 被引量：43
8毛莺池,陈杨.不确定性车辆路口的轨迹预测[J].计算机科学,2018,45(3):235-240. 被引量：8
9陈志鹏,李健.基于动物集群行为的无人机群目标围捕策略[J].现代计算机,2018,24(4):11-14. 被引量：3
10张高林,张继宇,周萌.未知环境中基于量子蚁群优化的移动机器人实时路径规划[J].计算机与现代化,2018(7):49-52. 被引量：3

引证文献5

1秦胜君,李婷.多交互车辆轨迹预测研究[J].计算机工程与应用,2021,57(11):232-238. 被引量：3
2凌文通,倪建军,陈颜,唐广翼.基于改进鲸鱼优化算法的多无人机围捕[J].计算机与现代化,2021(6):1-5. 被引量：4
3于振华,刘争气,刘颖,郭城.基于自适应混合粒子群优化的软件缺陷预测特征选择方法[J].计算机应用,2023,43(4):1206-1213.
4黄海,桂起权.基于人工智能的多Agent协同辩证逻辑推理方法[J].逻辑学研究,2023,16(5):81-96.
5陈灵敏,冯宇,李永强.基于距离信息的追逃策略:信念状态连续随机博弈[J].自动化学报,2024,50(4):828-840. 被引量：1

二级引证文献8

1吴丁杰,温立书.基于鲸鱼算法优化Elman神经网络的房价预测[J].长江信息通信,2021,34(10):12-14. 被引量：1
2齐战硕,高彦东.面向消除通信时延的车辆轨迹多步预测方法[J].计算机与现代化,2022(5):114-118. 被引量：2
3孟宪伟,唐进君,王喆.考虑换道意图的LSTM-AdaBoost车辆轨迹预测模型[J].计算机工程与应用,2022,58(13):280-287. 被引量：6
4刘云辉,石永康.未知环境下多无人机协同搜索与围捕策略研究[J].现代电子技术,2023,46(6):98-104. 被引量：3
5王雪阳,刘茜.融合变道意图识别的车辆轨迹预测GAN模型[J].计算机系统应用,2023,32(4):354-360. 被引量：1
6赵太飞,赵毅,刘阳,张雯.紫外光通信协作编队无人机联盟围捕算法[J].激光与光电子学进展,2023,60(15):152-161.
7时侠圣,任璐,孙长银.自适应分布式聚合博弈广义纳什均衡算法[J].自动化学报,2024,50(6):1210-1220.
8陈肜心,卫童浩,刘杰,胡珍珍.基于中心节点的无人机集群通信架构设计及验证[J].计算机与现代化,2024(6):121-126.

1建晶晶,洪世煌,陈吉.四企业定价的量子博弈[J].杭州电子科技大学学报（自然科学版）,2020,40(1):94-98.
2陶成武,李萍.大学生课外体育活动促进主体职能转变与关系建构[J].广州体育学院学报,2019,39(6):118-122. 被引量：10
3刘智宝,樊相宇,武小平.考虑政府参与的生鲜冷链博弈分析[J].商业经济,2020,0(2):46-49. 被引量：1
4林伟伟,胡志坚,谢仕炜,宁月,易辰颖,郑云飞.基于非合作博弈的独立售电公司最优规划方法[J].电力自动化设备,2020,40(3):154-161. 被引量：8
5邹山花,方宁生,郑恺,姚晓峰.基于区块链的虚拟养老院生态系统设计与实现[J].制造业自动化,2020,42(5):123-124. 被引量：3
6郑劼.颜伏伍:测出来的自主情缘[J].汽车观察,2020(6):37-37.
7蔡豪,袁正道.云数据中心基于贪心模式的虚拟机选择算法[J].计算机应用,2020,40(6):1707-1713. 被引量：2
8张睿文,宋笔锋,裴扬,王冠坤.复杂任务场景无人机集群自组织侦察建模与仿真[J].航空工程进展,2020,11(3):316-325. 被引量：7
9曾成.基于有效容量的TOPSIS网络选择算法[J].中国新通信,2020,22(10):53-55.
10刘可真,王骞,赵明,骆钊,沈鑫.基于多方合作博弈及梯级化的电能替代效益分析[J].电网技术,2020,44(2):711-718. 被引量：13

计算机应用

2020年第6期

浏览历史

内容加载中请稍等...

基于博弈论及Q学习的多Agent协作追捕算法被引量：5

参考文献5

二级参考文献42

共引文献50

同被引文献45

引证文献5

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于博弈论及Q学习的多Agent协作追捕算法 被引量：5

参考文献5

二级参考文献42

共引文献50

同被引文献45

引证文献5

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于博弈论及Q学习的多Agent协作追捕算法被引量：5