基于多智能体强化学习的协同目标分配被引量：1

Cooperative targets assignment based on multi-agent reinforcement learning

下载PDF

导出

摘要针对传统方法难以适用于动态不确定环境下的大规模协同目标分配问题,提出一种基于多智能体强化学习的协同目标分配模型及训练方法。通过对相关概念和数学模型的描述,将协同目标分配转化为多智能体协作问题。聚焦于顶层分配策略的学习,构建了策略评分模型和策略推理模型,采用Advantage Actor-Critic算法进行策略优化。仿真实验结果表明,所提方法能够准确刻画作战单元之间的协同演化内因,有效地实现了大规模协同目标分配方案的动态生成。 Aiming at the problem that traditional methods are difficult to apply to large-scale cooperative targets assignment in dynamic uncertain environment,a cooperative targets assignment model and training method based on multi-agent reinforcement learning is proposed.Through the description of related concepts and mathematical models,the cooperative targets assignment is transformed into a multi-agent cooperation problem.Focusing on the learning of top-level assignment strategy,the scoring model and reasoning model of strategy are constructed,and the Advantage Actor-Critic algorithm is used for strategy optimization.The simulation results show that the proposed method can accurately describe the evolution of the cooperative relationship between operational units,and effectively realize the dynamic generation of large-scale cooperative targets assignment scheme.

作者马悦吴琳许霄 MA Yue;WU Lin;XU Xiao(Graduate School,National Defense University,Beijing 100091,China;Unit 31002 of the PLA,Beijing 100091,China;Academy of Joint Operation,National Defense University,Beijing 100091,China)

机构地区国防大学研究生院中国人民解放军国防大学联合作战学院

出处《系统工程与电子技术》 EI CSCD 北大核心 2023年第9期2793-2801,共9页 Systems Engineering and Electronics

关键词协同目标分配多智能体协作强化学习神经网络 Advantage Actor-Critic cooperative targets assignment multi-agent cooperation reinforcement learning neural network Advantage Actor-Critic

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1欧峤,贺筱媛,陶九阳.协同目标分配问题研究综述[J].系统仿真学报,2019,31(11):2216-2227. 被引量：9
2郭智杰,糜玉林,肖阳,姜文志,贺林波.改进合同网协议在防空武器目标分配中的应用[J].现代防御技术,2017,45(4):104-111. 被引量：11
3吴文海,郭晓峰,周思羽,高丽.改进差分进化算法求解武器目标分配问题[J].系统工程与电子技术,2021,43(4):1012-1021. 被引量：30
4李俨,董玉娜.基于SA-DPSO混合优化算法的协同空战火力分配[J].航空学报,2010,31(3):626-631. 被引量：50
5吴坤鸿,詹世贤.分布式遗传模拟退火算法的火力打击目标分配优化[J].火力与指挥控制,2016,41(3):89-92. 被引量：22
6李琛,黄炎焱,张永亮,陈天德.Actor-Critic框架下的多智能体决策方法及其在兵棋上的应用[J].系统工程与电子技术,2021,43(3):755-762. 被引量：24

二级参考文献67

1黄俊伟,王雪琴,陈万玉.联合火力战火力资源分配模型研究[J].舰船电子工程,2008,28(5):56-58. 被引量：3
2高尚,杨静宇.武器-目标分配问题的粒子群优化算法[J].系统工程与电子技术,2005,27(7):1250-1252. 被引量：55
3罗德林,杨忠,段海滨,吴在桂,沈春林.协同多目标攻击空战决策的启发式粒子群优化算法(英文)[J].Transactions of Nanjing University of Aeronautics and Astronautics,2006,23(1):20-26. 被引量：16
4蔡怀平,刘靖旭,陈英武.动态武器目标分配问题的马尔可夫性[J].国防科技大学学报,2006,28(3):124-127. 被引量：22
5蔡怀平,陈英武,邢立宁.SVNTS算法的动态武器目标分配问题研究[J].计算机工程与应用,2006,42(31):7-10. 被引量：23
6蔡怀平,陈英武.武器-目标分配(WTA)问题研究进展[J].火力与指挥控制,2006,31(12):11-15. 被引量：68
7郭蕴华,李运涛,杨福缘.考虑毁伤概率门限的火力分配变异蚁群算法[J].火炮发射与控制学报,2006(4):1-5. 被引量：8
8张晓丰,程红斌,张凤鸣.改进遗传算法的导弹目标分配方法[J].火力与指挥控制,2007,32(4):59-61. 被引量：10
9罗德林,段海滨,吴顺详,李茂青.基于启发式蚁群算法的协同多目标攻击空战决策研究[J].航空学报,2006,27(6):1166-1170. 被引量：48
10黄力伟,许品刚,王勤.基于匈牙利算法求解的火力分配问题[J].火力与指挥控制,2007,32(6):25-28. 被引量：30

共引文献135

1郭健,柴华,王磊,许庆.装甲车载探测装备协同调度问题[J].装甲兵学报,2023(2):57-64.
2冉华明,熊蓉玲.空战中机群编队分层优化算法[J].航空学报,2020(S02):44-52. 被引量：4
3张毅,姜青山,陈国生.具有条件风险值的动态火力分配方法[J].系统工程与电子技术,2012,34(2):313-316. 被引量：3
4张毅,姜青山,陈国生.基于模糊-灰色非合作Nash博弈的多组动态武器-目标分配方法[J].云南大学学报（自然科学版）,2012,34(1):26-32. 被引量：6
5顾晓婕,王新民,李俨.机载雷达组网多站测角被动跟踪轨迹优化研究[J].计算机仿真,2012,29(5):14-18. 被引量：1
6王新民,李乐尧,顾晓婕,李文超,申海荣.传感器组网资源管理技术及系统仿真平台[J].测控技术,2012,31(6):6-9. 被引量：1
7周思羽,孔繁峨,吴文海,张楠,刘锦涛.基于变异离散粒子群的协同空战攻击决策算法[J].指挥控制与仿真,2012,34(4):25-29. 被引量：7
8费爱国,张陆游,丁前军.基于拍卖算法的多机协同火力分配[J].系统工程与电子技术,2012,34(9):1829-1833. 被引量：27
9王毅,赵建军,冯巍巍,付龙文,陈令新.基于自适应混沌粒子群优化的防空目标分配[J].计算机工程,2012,38(20):144-147. 被引量：6
10车玲,张仰森.面向词义消歧的条件随机场模型库构建[J].计算机工程,2012,38(20):152-155. 被引量：1

同被引文献12

1邹子缘,陈琪锋.基于决策树搜索的空间飞行器集群对抗目标分配方法[J].航空学报,2022,43(S01):78-88. 被引量：3
2魏明英,崔正达,李运迁.多弹协同拦截综述与展望[J].航空学报,2020(S01):29-36. 被引量：25
3龙腾,刘震宇,史人赫,王生印.基于神经网络的防空武器目标智能分配方法[J].空天防御,2021,4(1):1-7. 被引量：12
4文永明,石晓荣,黄雪梅,余跃.一种无人机集群对抗多耦合任务智能决策方法[J].宇航学报,2021,42(4):504-512. 被引量：13
5Ziyan CHEN,Jianglong YU,Xiwang DONG,Zhang REN.Three-dimensional cooperative guidance strategy and guidance law for intercepting highly maneuvering target[J].Chinese Journal of Aeronautics,2021,34(5):485-495. 被引量：12
6吴诗辉,贾军,鲍然,周宇,夏青元.面向集群对抗的多弹协同目标分配模型与仿真分析[J].空天防御,2021,4(3):1-9. 被引量：5
7郑书坚,赵文杰,钟永建,贺敏,赵文龙.面向多目标拦截问题的协同任务分配方法研究[J].空天防御,2021,4(3):55-64. 被引量：2
8朱建文,赵长见,李小平,包为民.基于强化学习的集群多目标分配与智能决策方法[J].兵工学报,2021,42(9):2040-2048. 被引量：21
9刘凯,徐骋.多飞行器协同拦截目标分配算法及制导律研究综述[J].战术导弹技术,2022(4):90-97. 被引量：2
10谢俊伟,方峰,彭冬亮,任金磊,王昌平.融合多属性决策和深度Q值网络的反导火力分配方法[J].电子与信息学报,2022,44(11):3833-3841. 被引量：2

引证文献1

1郭建国,胡冠杰,许新鹏,刘悦,曹晋.基于强化学习的多对多拦截目标分配方法[J].空天防御,2024,7(1):24-31.

1张阳,司光亚,王艳正,韩文彬.无人蜂群电磁作战行动建模与仿真[J].系统工程与电子技术,2023,45(7):2121-2130. 被引量：1
2钟沛成,骆德渊,庞明君.基于深度强化学习的四足机器人跟随策略研究及系统实现[J].机械工程学报,2023,59(13):79-88.
3徐兴辉,唐大林,顾书豪,左家祺,王晓东,任同群.基于多智能体强化学习的微装配任务规划方法[J].计算机测量与控制,2023,31(8):217-223.
4邵美蓉,安立仁,董津津.生态系统核心企业破坏性创新的协同演化——基于双元竞争压力多案例分析[J].软科学,2023,37(7):43-51.
5Ding Wang,Jiangyu Wang,Mingming Zhao,Peng Xin,Junfei Qiao.Adaptive Multi-Step Evaluation Design With Stability Guarantee for Discrete-Time Optimal Learning Control[J].IEEE/CAA Journal of Automatica Sinica,2023,10(9):1797-1809. 被引量：1
6刘阳,蒋李晋,谷青发,滕卫军,孙鑫,李本新.限出力下风电集群弃风功率的快速协调分配方法[J].现代电力,2023,40(4):457-464.
7蒋灵明,倪少权.基于多智体强化学习的高效率货物列车运行动态调整方法[J].铁道学报,2023,45(8):27-35.
8田淑霞,谷鹏磊.TIPS对肝硬化门静脉高压患者转氨酶、胆红素、白蛋白水平表达动态的影响[J].黑龙江医药科学,2023,46(4):90-91.

系统工程与电子技术

2023年第9期

浏览历史

内容加载中请稍等...

基于多智能体强化学习的协同目标分配被引量：1

参考文献6

二级参考文献67

共引文献135

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多智能体强化学习的协同目标分配 被引量：1

参考文献6

二级参考文献67

共引文献135

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于多智能体强化学习的协同目标分配被引量：1