基于深度强化学习潜艇攻防对抗训练指挥决策研究被引量：1

Research on Command Decision-making of Submarine Attack and Defense Confrontation Training Based on Deep Reinforcement Learning

下载PDF

导出

摘要潜艇和水面舰艇编队间的攻防对抗是潜艇作战研究的重点内容,如何确保潜艇在舰艇编队、反潜直升机等兵力的联合封锁下存活和突围,是对潜艇指挥决策的考验。为此,针对潜舰机博弈对抗场景,从深度强化学习和规则推理两个方面构建潜艇智能体,提出两种近端策略优化(Proximal Policy Optimization,PPO)算法改进机制,开展互博弈对抗和分布式训练,最终实现潜艇在对抗过程中的智能决策,相关技术路线和算法在兵棋对战平台上得到实施和验证,算法改进后的收敛速度和稳定性有了较大提升,可为潜艇智能指挥决策的研究提供技术参考。 The offensive and defensive confrontation between the submarine and the surface ship formation is the key content of submarine combat research.How to ensure that the submarine survives and breaks through the joint blockade of the ship formation and anti-submarine helicopters is a test of the submarine command decision.To this end,in view of the asymmetry of the submarine-ship-helicopter confrontation scenario,the submarine agent is constructed from two aspects of deep reinforcement learning and rule inference,and two Proximal Policy Optimization(PPO)algorithm improvement mechanisms are proposed.It carries out mutual game confrontation and distributed training,and finally realizes the intelligent decision-making of submarines in the confrontation process.Related technical routes and algorithms have been implemented and verified on the wargaming platform.The improved algorithm has greatly improved the convergence speed and stability.The research on submarine intelligent command decision-making provides technical reference.

作者郭洪宇初阳刘志周玉芳 GUO Hong-yu;CHU Yang;LIU Zhi;ZHOU Yu-fang(Jiangsu Automation Research Institute, Lianyungang 222061, China)

机构地区江苏自动化研究所

出处《指挥控制与仿真》 2022年第1期103-111,共9页 Command Control & Simulation

关键词智能指挥决策深度强化学习近端策略优化算法互博弈 intelligent command decision making deep reinforcement learning Proximal Policy Optimization mutual game confrontation

分类号 E917 [军事]

引文网络
相关文献

参考文献7

1陶九阳,吴琳,胡晓峰.AlphaGo技术原理分析及人工智能军事应用展望[J].指挥与控制学报,2016,2(2):114-120. 被引量：72
2黄彬城,陈思,高放,葛建军,吴雪玲.星际争霸视角的未来作战自主决策技术[J].科技导报,2021,39(5):117-125. 被引量：3
3况立群,李思远,冯利,韩燮,徐清宇.深度强化学习算法在智能军事决策中的应用[J].计算机工程与应用,2021,57(20):271-278. 被引量：5
4施伟,冯旸赫,程光权,黄红蓝,黄金才,刘忠,贺威.基于深度强化学习的多机协同空战方法研究[J].自动化学报,2021,47(7):1610-1623. 被引量：47
5王兴众,王敏,罗威.基于SAC算法的作战仿真推演智能决策技术[J].中国舰船研究,2021,16(6):99-108. 被引量：5
6张振,黄炎焱,张永亮,陈天德.基于近端策略优化的作战实体博弈对抗算法[J].南京理工大学学报,2021,45(1):77-83. 被引量：15
7赵星宇,丁世飞.深度强化学习研究综述[J].计算机科学,2018,45(7):1-6. 被引量：59

二级参考文献43

1陈兴国,俞扬.强化学习及其在电脑围棋中的应用[J].自动化学报,2016,42(5):685-695. 被引量：32
2孙鹏,谭玉玺,李路遥.基于态势描述的陆军作战仿真外部决策模型研究[J].指挥控制与仿真,2016,38(2):15-19. 被引量：4
3陶九阳,吴琳,胡晓峰.AlphaGo技术原理分析及人工智能军事应用展望[J].指挥与控制学报,2016,2(2):114-120. 被引量：72
4赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：127
5胡晓峰.军事指挥信息系统中的机器智能:现状与趋势[J].学术前沿,2016(15):22-34. 被引量：15
6冯超,景小宁,李秋妮,姚鹏.基于隐马尔可夫模型的空战决策点理论研究[J].北京航空航天大学学报,2017,43(3):615-626. 被引量：12
7何旭,景小宁,冯超.基于蒙特卡洛树搜索方法的空战机动决策[J].空军工程大学学报（自然科学版）,2017,18(5):36-41. 被引量：10
8李晨溪,曹雷,张永亮,陈希亮,周宇欢,段理文.基于知识的深度强化学习研究综述[J].系统工程与电子技术,2017,39(11):2603-2613. 被引量：38
9陈希亮,张永亮.基于深度强化学习的陆军分队战术决策问题研究[J].军事运筹与系统工程,2017,31(3):20-27. 被引量：23
10左家亮,杨任农,张滢,李中林,邬蒙.基于启发式强化学习的空战机动智能决策[J].航空学报,2017,38(10):212-225. 被引量：48

共引文献192

1李宪港,李强.典型智能博弈系统技术分析及指控系统智能化发展展望[J].智能科学与技术学报,2020,2(1):36-42. 被引量：18
2徐佳,胡春鹤.分布式多经验池的无人机自主避碰方法[J].信息与控制,2023,52(4):432-443.
3唐小林,陈佳信,刘腾,李佳承,胡晓松.基于深度强化学习的混合动力汽车智能跟车控制与能量管理策略研究[J].机械工程学报,2021,57(22):237-246. 被引量：16
4王磊.图书订货会迈入成熟期[J].中国出版,2000(2):25-26.
5王志宏,杨震.人工智能技术研究及未来智能化信息服务体系的思考[J].电信科学,2017,33(5):1-11. 被引量：75
6李嘉星,吕国,刘新月.AlphaGo的算法应用于学校排课系统的可行性研究[J].科技风,2017(14):52-52.
7王莉.人工智能在军事领域的渗透与应用思考[J].科技导报,2017,35(15):15-19. 被引量：45
8金欣.指挥控制智能化现状与发展[J].指挥信息系统与技术,2017,8(4):10-18. 被引量：46
9宫书畅.从AlphaGo人机围棋大战解读人工智能技术[J].电子制作,2017,0(16):35-36. 被引量：5
10何旭,景小宁,冯超.基于蒙特卡洛树搜索方法的空战机动决策[J].空军工程大学学报（自然科学版）,2017,18(5):36-41. 被引量：10

同被引文献3

1丁永忠.潜射自航式声诱饵发射方向研究[J].航空计算技术,2014,44(6):59-61. 被引量：2
2周敏佳,袁志勇.潜艇自航式诱饵组合对抗使用方法[J].探测与控制学报,2015,37(2):12-14. 被引量：7
3张东俊,王维平,黎潇,张磊,李小波,刘国杰.基于判别矩阵的潜艇作战态势认知决策建模方法[J].系统仿真学报,2020,32(2):182-190. 被引量：1

引证文献1

1郝昕然,于洋,崔燕,刘妍杉,刘剑,高红伟.潜艇防御两阶段追逃微分博弈模型[J].兵器装备工程学报,2023,44(S01):103-110.

1《战略决策研究》编辑委员会[J].战略决策研究,2021,12(4).
2钱昊(摄).舰艇编队海上高速航行[J].现代舰船,2022(2):13-13.
3福建党史上的今天(十一月)[J].厦门理工学院学报,2021,29(6).
4周涛,刘赟璨,陆惠玲,叶鑫宇,常晓玉.ResNet及其在医学图像处理领域的应用:研究进展与挑战[J].电子与信息学报,2022,44(1):149-167. 被引量：20
5张芩铭.高层建筑火灾扑救中的内攻作战研究[J].消防界（电子版）,2021,7(24):109-109.
6无.福建党史上的今天(十一月)[J].闽江学院学报,2021,42(6).
7无.十一月福建党史上的今天[J].闽西职业技术学院学报,2021,23(4).
8程宇.基于数据挖掘的通信业务使用行为分析方法研究与设计[J].中国水运（下半月）,2021,21(7):39-41. 被引量：1
9张梅双,余舟川,马亮.海上舰艇编队应对美军电磁频谱战的思考[J].舰船电子工程,2021,41(12):13-15.
10巴西海军“大西洋”号多用途直升机航母[J].兵器知识,2021(11):6-6.

指挥控制与仿真

2022年第1期

浏览历史

内容加载中请稍等...

基于深度强化学习潜艇攻防对抗训练指挥决策研究被引量：1

参考文献7

二级参考文献43

共引文献192

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习潜艇攻防对抗训练指挥决策研究 被引量：1

参考文献7

二级参考文献43

共引文献192

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习潜艇攻防对抗训练指挥决策研究被引量：1