基于多智能体强化学习的无人艇协同围捕方法被引量：7

Research on cooperative hunting method of unmanned surface vehicle based on multi-agent reinforcement learning

导出

摘要针对多无人艇对海上逃逸目标的围捕问题,提出一种基于多智能体强化学习的围捕算法.首先,以无人艇协同进攻为背景建立无边界围捕问题的环境和运动学模型,并针对快速性和合围性的需求给出围捕成功的判定条件;然后,基于多智能体近端策略优化(MAPPO)算法建立马尔可夫决策过程框架,结合围捕任务需求分别设计兼具伸缩性和排列不变性的状态空间,围捕距离、方位解耦的动作空间,捕获奖励与步长奖励相结合的奖励函数;最后,采用集中式训练、分布式执行的架构完成对围捕策略的训练,训练时采用课程式学习训练技巧,无人艇群共享相同的策略并独立执行动作.仿真实验表明,在无人艇起始数量不同的测试条件下,所提出方法在围捕成功率和时效性上相较于其他算法更具优势.此外,当无人艇节点损毁时,剩余无人艇仍然具备继续执行围捕任务的能力,所提出方法鲁棒性强,具有在真实环境中部署应用的潜力. To solve the hunting problem of multi-USVs(unmanned surface vehicles)on the sea,a multi-agent reinforcement learning hunting algorithm is proposed.Firstly,the environmental and kinematic model of the boundary-free hunting problem is established based on the background of the cooperative attack of USVs,and the criteria for successful hunting are given according to the requirements of rapidity and encirclement.Then,a Markov decision process framework is established based on the multi-agent PPO(MAPPO)algorithm.The state-space with scalability and permutation invariant,an action space with decoupling of capture distance and azimuth,and a reward function combining capture reward and step reward are designed.Finally,the framework of centralized training and distributed execution is adopted to train the policy.During the training,the skills of curriculum learning are used to make the network converge quickly,and the USVs share the same strategy and execute the action independently.Simulation shows that the proposed method has more advantages than other algorithms in the hunting success rate and timeliness under different testing conditions.In addition,when some of the USVs are failed,the remaining USVs can continue the task,which proves strong robustness and potential for deployment in a real environment.

作者夏家伟朱旭芳张建强罗亚松刘忠 XIA Jia-wei;ZHU Xu-fang;ZHANG Jian-qiang;LUO Ya-song;LIU Zhong(College of Weaponry Engineering,Naval University of Engineering,Wuhan 430033,China;College of Electronic Engineering,Naval University of Engineering,Wuhan 430033,China)

机构地区海军工程大学兵器工程学院海军工程大学电子工程学院

出处《控制与决策》 EI CSCD 北大核心 2023年第5期1438-1447,共10页 Control and Decision

基金中国博士后科学基金项目(2016T45686) 湖北省自然科学基金项目(2018CFC865) 全军军事类研究项目(YJ2020B117)。

关键词无人艇多智能体强化学习深度学习协同围捕近端策略优化 USV multi-agent reinforcement learning deep learning cooperative hunting proximal policy optimization

分类号 TP249 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献4

1王石,张建强,杨舒卉,张博伦.国内外无人艇发展现状及典型作战应用研究[J].火力与指挥控制,2019,44(2):11-15. 被引量：49
2伊戈,刘忠,张建强,董蛟.基于改进终端滑模控制的USV航向跟踪控制方法[J].电光与控制,2020,27(10):12-16. 被引量：12
3王泊涵,吴婷钰,李文浩,黄达,金博,杨峰,周爱民,王祥丰.基于多智能体强化学习的大规模无人机集群对抗[J].系统仿真学报,2021,33(8):1739-1753. 被引量：15
4符小卫,王辉,徐哲.基于DE-MADDPG的多无人机协同追捕策略[J].航空学报,2022,43(5):522-535. 被引量：21

二级参考文献43

1周浦城,洪炳镕,王月海.动态环境下多机器人合作追捕研究[J].机器人,2005,27(4):289-295. 被引量：16
2彭辉,沈林成,朱华勇.基于分布式模型预测控制的多UAV协同区域搜索[J].航空学报,2010,31(3):593-601. 被引量：46
3刘金星.空战指挥控制的自主决策思维属性[J].电光与控制,2010,17(6):1-4. 被引量：6
4严汝建,庞硕,孙寒冰,庞永杰.Development and Missions of Unmanned Surface Vehicle[J].Journal of Marine Science and Application,2010,9(4):451-457. 被引量：73
5方宝富,潘启树,洪炳镕,丁磊,蔡则苏.多追捕者-单-逃跑者追逃问题实现成功捕获的约束条件[J].机器人,2012,34(3):282-291. 被引量：9
6李家良.水面无人艇发展与应用[J].火力与指挥控制,2012,37(6):203-207. 被引量：123
7刘光猛,汪卫华.基于排队论的无人机突防概率研究[J].舰船电子工程,2013,33(5):123-125. 被引量：5
8宋磊.国外海军无人水面艇发展及关键技术[J].军事史林,2014(9):58-60. 被引量：8
9闫超,张志雄,罗自荣,李坡.美国海军无人系统作战特点及关键技术分析[J].国防科技,2014,35(5):41-45. 被引量：20
10万接喜.外军无人水面艇发展现状与趋势[J].国防科技,2014,35(5):91-96. 被引量：38

共引文献90

1徐佳,胡春鹤.分布式多经验池的无人机自主避碰方法[J].信息与控制,2023,52(4):432-443.
2夏天冰,查伊倩,赵丽莉,李明原,王鸿东.无人船在港口安全保障中的应用研究[J].船舶工程,2023,45(7).
3李方旭,金久才,张杰,李立刚,戴永寿.一种用于无人船海面障碍物测距的双目视觉系统[J].舰船科学技术,2019,41(23):118-122.
4田野,唐国元,袁子建,李琪凡.基于LabVIEW的水面无人艇远程监控软件系统开发及应用[J].机械与电子,2020,38(3):53-57. 被引量：6
5谢慧,杨忠,吴有龙,顾娟.基于物联网的水面无人艇技术体系和系统功能架构的研究[J].物联网技术,2020,10(3):52-54. 被引量：2
6张卫东,刘笑成,韩鹏.水上无人系统研究进展及其面临的挑战[J].自动化学报,2020,46(5):847-857. 被引量：54
7张丽珍,高浩,吴迪,李卫,陆天辰.基于MPC的半潜式无人艇导航轨迹跟踪控制研究[J].全球定位系统,2020,45(3):63-70. 被引量：5
8侯瑞超,唐智诚,王博,颜秉卿,任桐炜,武港山.水面无人艇智能化技术的发展现状和趋势[J].中国造船,2020,61(S01):211-220. 被引量：21
9程烨.小型无人艇研究现状及关键技术[J].中国造船,2020,61(S01):241-249. 被引量：5
10孙庆鹏,黄宏友,田彬.AUV远距离快速布放方法研究[J].数字海洋与水下攻防,2020,3(4):333-338. 被引量：3

同被引文献59

1范之琳,杨洪勇,韩艺琳.基于强化学习的多智能体系统目标围捕控制[J].航空学报,2023,44(S01):236-245. 被引量：4
2贾永楠,田似营,李擎.无人机集群研究进展综述[J].航空学报,2020(S01):4-14. 被引量：90
3徐璐,陈阳舟,居鹤华.基于动态行为控制的移动机器人自主避障[J].计算机工程,2007,33(14):180-182. 被引量：16
4方宝富,潘启树,洪炳镕,丁磊,蔡则苏.多追捕者-单-逃跑者追逃问题实现成功捕获的约束条件[J].机器人,2012,34(3):282-291. 被引量：9
5邱华鑫,段海滨,范彦铭.基于鸽群行为机制的多无人机自主编队[J].控制理论与应用,2015,32(10):1298-1304. 被引量：79
6李龙跃,刘付显,史向峰,梅颖颖.导弹攻防对抗中追逃对策模型与配点求解法[J].系统工程与电子技术,2016,38(5):1067-1073. 被引量：5
7宗群,王丹丹,邵士凯,张博渊,韩宇.多无人机协同编队飞行控制研究现状及发展[J].哈尔滨工业大学学报,2017,49(3):1-14. 被引量：142
8刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：468
9姜立标,吴中伟.基于趋近律滑模控制的智能车辆轨迹跟踪研究[J].农业机械学报,2018,49(3):381-386. 被引量：38
10林龙信,张比升.水面无人作战系统技术发展与作战应用[J].水下无人系统学报,2018,26(2):107-114. 被引量：15

引证文献7

1薛雅丽,叶金泽,李寒雁.基于改进强化学习的多智能体追逃对抗[J].浙江大学学报（工学版）,2023,57(8):1479-1486.
2于长东,刘新阳,陈聪,刘殿勇,梁霄.基于多智能体深度强化学习的无人艇集群博弈对抗研究[J].水下无人系统学报,2024,32(1):79-86.
3杨远鹏,宋利飞,茅嘉琪,李一,陈侯京.基于混合采样深度Q网络的水面无人艇逃脱策略[J].中国舰船研究,2024,19(1):256-263.
4高甲博,肖玮.无人机集群编队自主协同控制方法综述[J].舰船电子工程,2024,44(1):20-26.
5苏牧青,王寅,濮锐敏,余萌.基于强化学习的多无人车协同围捕方法[J].工程科学学报,2024,46(7):1237-1250.
6刘磊,葛振业,林杰,陶宇,孙俊杰.基于鱼群涌现行为启发的集群机器人硬注意力强化模型[J].计算机应用研究,2024,41(9):2737-2744.
7顾健,王寅,苏牧青,孔小平,段可香,余萌.基于双向长短时记忆与混合奖励函数的多无人车协同围捕控制[J].中国科学：技术科学,2024,54(9):1665-1675.

1王嫣然.课后服务家校社联动模式的构建——一以上海市青浦区尚鸿小学为例[J].现代教学,2023(1):166-167. 被引量：1
2宋利飞,徐凯凯,史晓骞,孙昊,柴威,郭荣.多无人艇协同围捕智能逃跑目标方法研究[J].中国舰船研究,2023,18(1):52-59. 被引量：2
3马勇.探究初中田径训练中的体能训练技巧[J].田径,2023(5):26-27.
4袁明新,黄艇,高云强,刘锁东,刘维.平行导引律优化的多机器人免疫围捕算法[J].控制工程,2023,30(1):177-185. 被引量：1
5宋旺,胡祥,张玉辉,卫文江,周雅诗,康傲.一种全局供需感知的均值场多智能体强化学习订单分配算法[J].数据采集与处理,2023,38(3):652-664. 被引量：1
6王耀宏.美声唱法男高音演唱训练技巧研究[J].音乐教育与创作,2023(5):52-56. 被引量：1
7胡曦,余晓凤.高校大学生持续使用在线学习平台的影响机制研究[J].大庆师范学院学报,2023,43(1):117-126. 被引量：2
8顾耀文,郑思,杨丰春,李姣.基于图神经网络的抗结核杆菌药物虚拟筛选模型的建立及应用[J].数据分析与知识发现,2022,6(11):93-102.
9杨博.高校体育教学中足球训练的创新探究[J].中国科技期刊数据库科研,2023(2):165-167.
10周佳炜,孙宇祥,薛宇凡,项祺,吴莹,周献中.融合先验知识的异构多智能体强化学习算法研究[J].指挥控制与仿真,2023,45(3):99-107. 被引量：1

控制与决策

2023年第5期

浏览历史

内容加载中请稍等...

基于多智能体强化学习的无人艇协同围捕方法被引量：7

参考文献4

二级参考文献43

共引文献90

同被引文献59

引证文献7

相关作者

相关机构

相关主题

浏览历史

基于多智能体强化学习的无人艇协同围捕方法 被引量：7

参考文献4

二级参考文献43

共引文献90

同被引文献59

引证文献7

相关作者

相关机构

相关主题

浏览历史

基于多智能体强化学习的无人艇协同围捕方法被引量：7