基于多智能体深度强化学习的无人艇集群博弈对抗研究

Research on Game Confrontation of Unmanned Surface Vehicles Swarm Based on Multi-Agent Deep Reinforcement Learning

下载PDF

导出

摘要基于未来现代化海上作战背景,提出了利用多智能体深度强化学习方案来完成无人艇群博弈对抗中的协同围捕任务。首先,根据不同的作战模式和应用场景,提出基于分布式执行的多智能体深度确定性策略梯度算法,并对其原理进行了介绍;其次,模拟具体作战场景平台,设计多智能体网络模型、奖励函数机制以及训练策略。实验结果表明,文中方法可以有效应对敌方无人艇的协同围捕决策问题,在不同作战场景下具有较高的效率,为未来复杂作战场景下无人艇智能决策研究提供理论参考价值。 Based on the background of future modern maritime combats,a multi-agent deep reinforcement learning scheme was proposed to complete the cooperative round-up task in the swarm game confrontation of unmanned surface vehicles(USVs).First,based on different combat modes and application scenarios,a multi-agent deep deterministic policy gradient algorithm based on distributed execution was determined,and its principle was introduced.Second,specific combat scenario platforms were simulated,and multi-agent network models,reward function mechanisms,and training strategies were designed.The experimental results show that the method proposed in this article can effectively solve the problem of cooperative round-up decision-making facing USVs from the enemy,and it has high efficiency in different combat scenarios.This work provides theoretical and reference value for the research on intelligent decision-making of USVs in complicated combat scenarios in the future.

作者于长东刘新阳陈聪刘殿勇梁霄 YU Changdong;LIU Xinyang;CHEN Cong;LIU Dianyong;LIANG Xiao(College of Artificial Intelligence,Dalian Maritime University,Dalian 116026,China;National Key Laboratory of Autonomous Marine Vehicle Technology Laboratory,Harbin Engineering University,Harbin 150001,China;School of Naval Architecture and Ocean Engineering,Dalian Maritime University,Dalian 116026,China)

机构地区大连海事大学人工智能学院哈尔滨工程大学智能海洋航行器技术全国重点实验室大连海事大学船舶与海洋工程学院

出处《水下无人系统学报》 2024年第1期79-86,共8页 Journal of Unmanned Undersea Systems

基金国家自然科学基金项目(52271302) 国家基础科研计划项目(JCKY2022410C012) 辽宁省应用基础研究计划项目(2023JH2/101300198) 大连市科技创新基金项目(2021JJ12GX017) 中央高校基本科研业务费专项资金资助(3132023512) 智能海洋航行器技术全国重点实验室支持项目(2024-HYHXQ-WDZC08)。

关键词无人艇集群多智能体深度确定性策略梯度算法深度强化学习智能决策博弈对抗 unmanned surface vehicle swarm multi-agent deep deterministic policy gradient algorithm deep reinforcement learning intelligent decision-making game confrontation

分类号 TJ630 [兵器科学与技术—武器系统与运用工程] U664.82 [交通运输工程—船舶及航道工程]

引文网络
相关文献

参考文献10

1林龙信,张比升.水面无人作战系统技术发展与作战应用[J].水下无人系统学报,2018,26(2):107-114. 被引量：15
2胡桥,赵振轶,冯豪博,姜川.AUV智能集群协同任务研究进展[J].水下无人系统学报,2023,31(2):189-200. 被引量：1
3高霄鹏,刘冬雨,霍聪.水面无人艇运动规划研究综述[J].舰船科学技术,2023,45(16):1-6. 被引量：5
4刘鹏,赵建新,张宏映,高腾飞,闫涛.基于改进型MADDPG的多智能体对抗策略算法[J].火力与指挥控制,2023,48(3):132-138. 被引量：2
5李波,越凯强,甘志刚,高佩忻.基于MADDPG的多无人机协同任务决策[J].宇航学报,2021,42(6):757-765. 被引量：25
6刘菁,华翔,张金金.一种改进博弈学习的无人机集群协同围捕方法[J].西安工业大学学报,2023,43(3):277-286. 被引量：1
7赵伟,叶军,王邠.基于人工智能的智能化指挥决策和控制[J].信息安全与通信保密,2022(2):2-8. 被引量：5
8苏震,张钊,陈聪,刘殿勇,梁霄.基于深度强化学习的无人艇集群博弈对抗[J].兵器装备工程学报,2022,43(9):9-14. 被引量：2
9夏家伟,朱旭芳,张建强,罗亚松,刘忠.基于多智能体强化学习的无人艇协同围捕方法[J].控制与决策,2023,38(5):1438-1447. 被引量：8
10蔺向阳,邢清华,邢怀玺.基于MADDPG的无人机群空中拦截作战决策研究[J].计算机科学,2023,50(S01):88-94. 被引量：2

二级参考文献81

1张哲,吴剑,何诚,穆忠伟.复杂环境下多目标多无人机协同任务规划[J].兵器装备工程学报,2020,0(2):123-128. 被引量：13
2尚燕丽.海军发展无人作战平台的需求、现状与展望[J].国防技术基础,2009(1):40-43. 被引量：20
3高劲松,余菲,季晓光.无人机自主控制等级的研究现状[J].电光与控制,2009,16(10):51-54. 被引量：15
4牛轶峰,沈林成,戴斌,徐昕,相晓嘉.无人作战系统发展[J].国防科技,2009,30(5):1-11. 被引量：47
5宋金泽,戴斌,单恩忠,贺汉根.一种改进的RRT路径规划算法[J].电子学报,2010,38(B02):225-228. 被引量：61
6严汝建,庞硕,孙寒冰,庞永杰.Development and Missions of Unmanned Surface Vehicle[J].Journal of Marine Science and Application,2010,9(4):451-457. 被引量：73
7徐娜,陈雄,孔庆生,韩建达.非完整约束下的机器人运动规划算法[J].机器人,2011,33(6):666-672. 被引量：47
8胡俊,朱庆保.基于动态预测目标轨迹和围捕点的多机器人围捕算法[J].电子学报,2011,39(11):2480-2485. 被引量：18
9李家良.水面无人艇发展与应用[J].火力与指挥控制,2012,37(6):203-207. 被引量：123
10李本江,高孟,罗向前.美反潜无人艇作战使用分析[J].舰船电子工程,2012,32(8):3-4. 被引量：7

共引文献55

1罗富强,霍聪,高霄鹏,申云磊.多航态高速无人艇阻力试验研究[J].舰船科学技术,2019,41(23):58-63. 被引量：3
2张燚,朱辉庆,陈伟军.海上无人作战装备现状与发展初探[J].装备制造技术,2020(11):211-214.
3韩光松,侯博,李萍.无人自主系统在海战场的运用[J].飞航导弹,2020(11):84-89. 被引量：7
4贲可荣,王斌.海洋装备智能化与智能化装备思考[J].江苏科技大学学报（自然科学版）,2021,35(2):1-11. 被引量：7
5王凯,宁云晖,邓福建,翟国威,刘猛.基于随机信标的因子图同时定位构图方法[J].舰船科学技术,2021,43(10):132-136.
6郑红星,郭继峰,谢旭东,颜鹏.一种未知动态环境下异构无人机集群分布式联盟形成方法[J].宇航学报,2022,43(2):189-197. 被引量：4
7陈骊,刘志坤,胡生亮,吴兆东.马赛克战背景下小型无人艇集群作战样式探析[J].数字海洋与水下攻防,2022,5(1):11-16. 被引量：2
8匡曙龙,杨一鹏,邱长青,李鹏.多航态无人艇混合动力系统设计[J].船电技术,2022,42(5):60-64.
9曹严,龙腾,孙景亮,徐广通.非死锁合同网协议驱动的多机分布式时序任务分配[J].宇航学报,2022,43(5):675-684. 被引量：3
10唐波,孟荻,范文涛.水面无人艇在水面舰艇编队水下防御的发展展望[J].数字海洋与水下攻防,2022,5(2):121-126. 被引量：5

1侯剑,鲁辉,刘方爱,王兴伟,田志宏.加密恶意流量检测及对抗综述[J].软件学报,2024,35(1):333-355. 被引量：4
2金国锋,黄智勇,贾瑛,高敏娜,薛超.军队院校装备类专业课程“以战领教、任务驱动、以学为中心”教学模式创新与实践[J].大学教育,2023(21):50-54. 被引量：2
3杨中源,赵启兵,葛友滨,朱晨帆,李兆辉,徐道铭.海上无人集群发展及技术体系研究[J].舰船科学技术,2024,46(2):53-56. 被引量：1
4潘磊,卢风云.警务合成作战相关内涵研究[J].西部公安论坛,2023,21(4):44-49.
5郭宇鹏,齐敬.基于Rust的免杀对抗研究[J].网络安全技术与应用,2024(1):47-50.
6王桢朗,何慧群,周军,金云飞.基于多智能体深度强化学习的多星观测任务分配方法[J].上海航天（中英文）,2024,41(1):108-115.
7梁荣晓,司光亚,王艳正,张阳,王飞.基于作战势和优势窗口的网络空间作战效能评估方法[J].指挥与控制学报,2023,9(6):742-752.
8熊佳梅,王永振,燕雪峰,魏明强.一种基于语义引导和对比学习的战场图像去烟算法[J].兵工学报,2024,45(2):671-683.
9杨光开,陈皓,张茗奕,尹奇跃,黄凯奇.基于不确定度的多智能体信用分配方法[J].中国科学院大学学报（中英文）,2024,41(2):231-240.
10于冰倩,李学艳,程思齐,杨依凡,郭子卉.基于复杂网络的陆空协同作战体系效能评估方法[J].火力与指挥控制,2024,49(1):105-110.

水下无人系统学报

2024年第1期

浏览历史

内容加载中请稍等...

基于多智能体深度强化学习的无人艇集群博弈对抗研究

参考文献10

二级参考文献81

共引文献55

相关作者

相关机构

相关主题

浏览历史