期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
Actor-Critic框架下的多智能体决策方法及其在兵棋上的应用 被引量:25
1
作者 李琛 黄炎焱 +1 位作者 张永亮 陈天德 《系统工程与电子技术》 EI CSCD 北大核心 2021年第3期755-762,共8页
将人工智能应用于兵棋推演的智能战术兵棋正逐年发展,基于Actor-Critic框架的决策方法可以实现智能战术兵棋的战术行动动态决策。但若Critic网络只对单算子进行评价,多算子之间的网络没有协同,本方算子之间各自行动决策会不够智能。针... 将人工智能应用于兵棋推演的智能战术兵棋正逐年发展,基于Actor-Critic框架的决策方法可以实现智能战术兵棋的战术行动动态决策。但若Critic网络只对单算子进行评价,多算子之间的网络没有协同,本方算子之间各自行动决策会不够智能。针对上述方法的不足,提出了一种基于强化学习并结合规则的多智能体决策方法,以提升兵棋推演的智能水平。侧重采用强化学习对多算子的行动决策进行决策分析,并结合产生式规则对战术决策进行规划。构建基于Actor-Critic框架的多算子分布执行集中训练的行动决策模型,对比每个算子互不交流的封闭式行动决策学习方法,提出的分布执行集中训练方法更具优势且有效。 展开更多
关键词 智能战术 兵棋推演 多智能体强化学习 Actor-Critic框架 分布执行集中训练
下载PDF
引入混合超网络改进MADDPG的双机编队空战自主机动决策
2
作者 李文韬 方峰 +2 位作者 王振亚 朱奕超 彭冬亮 《航空学报》 EI CAS CSCD 北大核心 2024年第17期214-228,共15页
针对局部信息可观测的双机编队空战协同奖励难以量化设计、智能体协同效率低、机动决策效果欠佳的问题,提出了一种引入混合超网络改进多智能体深度确定性策略梯度(MADDPG)的空战机动决策方法。采用集中式训练-分布式执行架构,满足单机... 针对局部信息可观测的双机编队空战协同奖励难以量化设计、智能体协同效率低、机动决策效果欠佳的问题,提出了一种引入混合超网络改进多智能体深度确定性策略梯度(MADDPG)的空战机动决策方法。采用集中式训练-分布式执行架构,满足单机智能体在局部观测数据下对于全局最优机动决策的训练需求。在为各单机设计兼顾局部快速引导和全局打击优势的奖励函数基础上,引入混合超网络将各单机估计的Q值进行单调非线性混合得到双机协同的全局策略Q值,指导分布式Actor网络更新参数,解决多智能体深度强化学习中信度分配难的问题。大量仿真结果表明,相较于典型的MADDPG方法,该方法能够更好地引导各单机做出符合全局协同最优的机动决策指令,且拥有更高的对抗胜率。 展开更多
关键词 无人作战飞机 空战机动决策 多智能体深度确定性策略梯度(MADDPG) 混合超网络 集中训练-分布执行
原文传递
协同空战与多智能体强化学习下的关键问题
3
作者 谢育星 陆屹 +1 位作者 管聪 纪德东 《飞机设计》 2023年第1期6-10,共5页
自从协同作战的概念提出后,各军事强国在协同空战领域均取得了重大进展,协同成为提升作战能力的倍增器。近数十年来,作为解决序列问题的现代智能方法,强化学习在各领域高速发展。然而,面对高维变量问题时,传统的单智能体强化学习往往表... 自从协同作战的概念提出后,各军事强国在协同空战领域均取得了重大进展,协同成为提升作战能力的倍增器。近数十年来,作为解决序列问题的现代智能方法,强化学习在各领域高速发展。然而,面对高维变量问题时,传统的单智能体强化学习往往表现不佳,多智能体强化学习算法为解决复杂多维问题提出新的可能。通过对多智能体强化学习算法原理、训练范式与协同空战的适应性进行分析,提出了协同空战与多智能体强化学习的未来发展方向,为更好地把多智能体强化学习应用于协同空战提供思路。 展开更多
关键词 协同空战 多智能体强化学习 训练范式 集中训练分布执行(CTDE)
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部