基于深度强化学习的兵棋推演决策方法框架被引量：12

Framework of wargaming decision-making methods based on deep reinforcement learning

下载PDF

导出

摘要针对兵棋推演的自动对抗问题,文章提出基于深度学习网络和强化学习模型来构建对抗策略。文章结合深度强化学习技术优势,立足多源层次化的战场态势描述,提出面向智能博弈的战场态势表示方法;将作战指挥分层分域的原则同即时策略游戏中的模块化和分层架构相结合,提出一种层次化和模块化深度强化学习方法框架,用于各决策智能体与战场环境交互的机制以及对抗策略的产生;为满足实际作战响应高实时特点,提出压缩的深度强化学习,提升模型输出速度;为改善对不同环境的适应性,提出利用深度迁移学习提升模型泛化能力。 In order to solve the problem of automatic confrontation in wargaming,this paper puts forward a countering strategy based on a deep learning network and a reinforcement learning model.Combined with the advantages of deep reinforcement learning and multi-source hierarchical battlefield situation description,this paper proposes a battlefield situation representation method.A hierarchical and modular deep reinforcement learning framework is then proposed,by combining the principle of hierarchical and domain command with the modular and layered architecture of deep reinforcement learning in real-time strategy games,and applied to the interaction mechanism between decision agents and battlefield environment as well as the formulation of countering strategies.Considering the characteristics of high real-time operational response,a compressed deep reinforcement learning method is proposed to accelerate the output speed of the model.In order to improve the adaptability to different environments,a deep transfer learning method is also proposed to improve the generalization ability of the model.

作者崔文华李东唐宇波柳少军 CUI Wenhua;LI Dong;TANG Yubo;LIU Shaojun(National Defense University, Beijing 100091, China)

机构地区国防大学

出处《国防科技》 2020年第2期113-121,共9页 National Defense Technology

关键词兵棋推演深度强化学习态势表示压缩学习方法深度迁移学习 wargaming deep reinforcement learning situation representation compression learning methodologies deep transfer learning

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] E91 [军事]

引文网络
相关文献

参考文献5

1唐振韬,邵坤,赵冬斌,朱圆恒.深度强化学习进展:从AlphaGo到AlphaGo Zero[J].控制理论与应用,2017,34(12):1529-1546. 被引量：87
2胡晓峰,贺筱媛,陶九阳.AlphaGo的突破与兵棋推演的挑战[J].科技导报,2017,35(21):49-60. 被引量：37
3刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：444
4赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：127
5王惠.迁移学习研究综述[J].电脑知识与技术（过刊）,2017,23(11X):203-205. 被引量：19

二级参考文献139

1魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
2高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
3MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-levelcontrol through deep reinforcement learning [J]. Nature, 2015,518(7540): 529 – 533.
4SILVER D, HUANG A, MADDISON C, et al. Mastering the gameof Go with deep neural networks and tree search [J]. Nature, 2016,529(7587): 484 – 489.
5AREL I. Deep reinforcement learning as foundation for artificialgeneral intelligence [M] //Theoretical Foundations of Artificial GeneralIntelligence. Amsterdam: Atlantis Press, 2012: 89 – 102.
6TEAAURO G. TD-Gammon, a self-teaching backgammon program,achieves master-level play [J]. Neural Computation, 1994,6(2): 215 – 219.
7SUTTON R S, BARTO A G. Reinforcement Learning: An Introduction[M]. Cambridge MA: MIT Press, 1998.
8KEARNS M, SINGH S. Near-optimal reinforcement learning inpolynomial time [J]. Machine Learning, 2002, 49(2/3): 209 – 232.
9KOCSIS L, SZEPESVARI C. Bandit based Monte-Carlo planning[C] //Proceedings of the European Conference on MachineLearning. Berlin: Springer, 2006: 282 – 293.
10LITTMAN M L. Reinforcement learning improves behaviour fromevaluative feedback [J]. Nature, 2015, 521(7553): 445 – 451.

共引文献650

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：2
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：37
3李宪港,李强.典型智能博弈系统技术分析及指控系统智能化发展展望[J].智能科学与技术学报,2020,2(1):36-42. 被引量：19
4韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
5姚红革,王诚,喻钧,白小军,李蔚.复杂卫星图像中的小目标船舶识别[J].遥感学报,2020,24(2):116-125. 被引量：12
6李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：38
7舒忠.基于深度学习的图像样本标签赋值校正算法实现[J].数字印刷,2019(4):38-45. 被引量：2
8卢喜丰,王新军,白晓明,何风,吕勇波,李柄锦.基于BP神经网络和遗传算法的核级管道力学性能优化研究[J].科技视界,2023(16):138-144.
9周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：5
10李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1

同被引文献167

1李宪港,李强.典型智能博弈系统技术分析及指控系统智能化发展展望[J].智能科学与技术学报,2020,2(1):36-42. 被引量：19
2李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：38
3魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
4胡宝洁,赵忠文,曾峦,张永继.图灵机和图灵测试[J].电脑知识与技术,2006(8):132-133. 被引量：9
5李志强,胡晓峰,司光亚,董忠林,张斌.基于人工势场的军事态势分析模型[J].火力与指挥控制,2007,32(4):5-8. 被引量：10
6滕鹏,刘栋,张斌,张同法,白明.超视距协同空战态势评估方法研究[J].电光与控制,2008,15(10):47-50. 被引量：17
7赵宗贵,李君灵,王珂.战场态势估计概念、结构与效能[J].中国电子科学研究院学报,2010,5(3):226-230. 被引量：49
8王桂起,刘辉,朱宁.兵棋技术综述[J].兵工自动化,2012,31(8):38-41. 被引量：19
9刘嵩,武志强,游雄,张欣,王雪峰.基于兵棋推演的综合战场态势多尺度表达[J].测绘科学技术学报,2012,29(5):382-385. 被引量：13
10李欢,马伯宁,孔龙星.军事任务推演的时空模型与驱动机制[J].国防科技大学学报,2013,35(3):138-143. 被引量：6

引证文献12

1张振,黄炎焱,张永亮,陈天德.基于近端策略优化的作战实体博弈对抗算法[J].南京理工大学学报,2021,45(1):77-83. 被引量：17
2王兴众,王敏,罗威.基于SAC算法的作战仿真推演智能决策技术[J].中国舰船研究,2021,16(6):99-108. 被引量：6
3王晓丹,向前,李睿,来杰.深度学习研究及军事应用综述[J].空军工程大学学报（自然科学版）,2022,23(1):1-11. 被引量：7
4王丹妮,徐丽,李思照.军事智能推演研究综述[J].计算机与网络,2022,48(9):43-51.
5文东日.深度强化学习在军事领域的应用研究[J].军事运筹与评估,2022,37(3):75-80. 被引量：2
6包战,张驭龙,朱松岩,王春光,刘忠.智能临机规划技术要点研究[J].国防科技,2023,44(1):112-118.
7林泽阳,赖俊,陈希亮,王军.基于课程强化学习的联合海空博弈决策模型训练方法[J].火力与指挥控制,2023,48(3):25-34.
8尹奇跃,赵美静,倪晚成,张俊格,黄凯奇.兵棋推演的智能决策技术与挑战[J].自动化学报,2023,49(5):913-928. 被引量：6
9刘玮,张永亮,程旭.基于深度强化学习的人机智能对抗综述[J].指挥信息系统与技术,2023,14(2):28-37.
10沈寿林,肖毅,朱江,白承森.作战指挥态势理解智能算法应用[J].指挥信息系统与技术,2023,14(2):52-57. 被引量：1

二级引证文献35

1乔勇军,肖凡,袁首.基于威胁度引导的火力分配强化学习算法[J].兵器装备工程学报,2021,42(S02):213-219.
2郭洪宇,初阳,刘志,周玉芳.基于深度强化学习潜艇攻防对抗训练指挥决策研究[J].指挥控制与仿真,2022,44(1):103-111. 被引量：2
3王丹妮,徐丽,李思照.军事智能推演研究综述[J].计算机与网络,2022,48(9):43-51.
4孙宇祥,彭益辉,李斌,周佳炜,张鑫磊,周献中.智能博弈综述:游戏AI对作战推演的启示[J].智能科学与技术学报,2022,4(2):157-173. 被引量：8
5刘满,张宏军,徐有为,冯欣亮,冯玉芳.群队级兵棋实体智能行为决策方法研究[J].系统工程与电子技术,2022,44(8):2562-2569. 被引量：1
6张金辉.关于智能化野战医疗所的建设探讨[J].华南国防医学杂志,2022,36(6):453-456. 被引量：3
7陈进,张志巧,廖彩淇,唐学明.基于深度强化学习的气振盘式播种机械臂运动规划方法研究[J].中国农机化学报,2022,43(10):149-156. 被引量：1
8曹天成.多标签自然场景图片识别[J].数字技术与应用,2022,40(11):28-30. 被引量：2
9何贤军,华越,王依哲,彭江舟,陈志华,吴威涛.基于深度强化学习的机翼分离流场零质量射流控制[J].南京理工大学学报,2022,46(6):697-708. 被引量：1
10李卓远,张德平.基于BN-DDPG轻量级强化学习算法的智能兵棋推演[J].计算机系统应用,2023,32(4):293-299. 被引量：1

1庞小澎,刘祥,朱翔宇.数据挖掘在电力信息系统网络安全的应用[J].电子乐园,2019(27):29-29. 被引量：1
2徐帷,卢山.基于Sarsa(λ)强化学习的空间机械臂路径规划研究[J].宇航学报,2019,40(4):435-443. 被引量：21
3杨雷.大数据时代计算机网络应用与设计[J].数字通信世界,2020,0(2):168-168. 被引量：6
4方思航,刘亚迅.浪上起舞的作战尖兵[J].当代海军,2020,0(3):18-18.
5刘发庆.大力推进军队大数据建设与应用[J].中国军事科学,2019(6):1-5.
6徐圣洁.基于大数据网格的电信IT系统智能运维体系探究[J].市场周刊·理论版,2019(47):104-104.
7张莹.机载雷达仿真系统总控软件的设计与实现[J].测控技术,2019,38(12):131-135. 被引量：4
8张永亮,姜峰,董浩洋.关于指挥控制工程化的认识与思考[J].中国军事科学,2019(6):103-108.
9李婷婷,刁联旺.智能化态势认知技术与发展建议[J].指挥信息系统与技术,2020,11(2):55-58. 被引量：16
10张维维,高向,汪宝珠,刘大铭.基于树莓派的深度学习网络手势识别系统[J].信息与电脑,2020,32(7):63-66. 被引量：1

国防科技

2020年第2期

浏览历史

内容加载中请稍等...

基于深度强化学习的兵棋推演决策方法框架被引量：12

参考文献5

二级参考文献139

共引文献650

同被引文献167

引证文献12

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的兵棋推演决策方法框架 被引量：12

参考文献5

二级参考文献139

共引文献650

同被引文献167

引证文献12

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的兵棋推演决策方法框架被引量：12