期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
SC2LE场景下基于QMIX算法的多智能体协同控制 被引量:1
1
作者 方星辰 崔鹏 王庆领 《指挥信息系统与技术》 2021年第2期21-26,共6页
为了解决多智能体协同控制中高维状态空间与环境部分可观测的问题,研究了中心式训练分布式执行框架在多智能体强化学习中的实现方法,以及复杂场景下传统强化学习算法,并采用带注意力机制的QMIX算法实现了协同控制。以星际争霸2学习环境(... 为了解决多智能体协同控制中高维状态空间与环境部分可观测的问题,研究了中心式训练分布式执行框架在多智能体强化学习中的实现方法,以及复杂场景下传统强化学习算法,并采用带注意力机制的QMIX算法实现了协同控制。以星际争霸2学习环境(SC2LE)为基础的小场景中,将多个作战单位作为多智能体进行协同控制并加以试验验证。试验结果表明,与其他多智能体强化学习算法相比,带注意力机制的QMIX算法能够得到收敛的训练模型,可获得较好的协同控制效果。 展开更多
关键词 多智能体强化学习 QMIX算法 注意力机制 sc2le
下载PDF
基于角色分配的多智能体决策算法研究 被引量:2
2
作者 陈杰 程胜 《电子设计工程》 2019年第14期117-120,125,共5页
设计了一种使用角色来代替智能体的多智能体协同学习方法。根据多智能体系统的特性在多智能体系统中划分若干角色,每个角色拥有其独立的状态空间和动作空间,为智能体的状态空间和动作空间来的子空间。把多智能体系统对智能体的学习转变... 设计了一种使用角色来代替智能体的多智能体协同学习方法。根据多智能体系统的特性在多智能体系统中划分若干角色,每个角色拥有其独立的状态空间和动作空间,为智能体的状态空间和动作空间来的子空间。把多智能体系统对智能体的学习转变为对角色的学习。用角色的分配来代替多智能体系统的决策,使用强化学习的方法训练决策层,使其在各个状态下都能选择到最优的角色分配策略。在"星际争霸Ⅱ学习环境"(SC2LE)中进行实验,验证了该方法在有效降低状态空间的情况下,仍然具有可行性与高鲁棒性。 展开更多
关键词 多智能体系统 智能体协同 决策算法 强化学习 sc2le
下载PDF
基于逆向强化学习的虚拟人物行为生成方法
3
作者 刘佳楠 于洋 赵亚威 《信息技术与信息化》 2023年第6期114-117,共4页
针对指挥训练系统所面临的科目越来越复杂,所需要协调的人员越来越庞大,而且对场景的逼真程度要求越来越高,需要多方各级指挥员的参与才能进行训练的问题,提出了一种基于逆向强化学习的方法。首先,通过机器学习得到基于专家数据的潜在... 针对指挥训练系统所面临的科目越来越复杂,所需要协调的人员越来越庞大,而且对场景的逼真程度要求越来越高,需要多方各级指挥员的参与才能进行训练的问题,提出了一种基于逆向强化学习的方法。首先,通过机器学习得到基于专家数据的潜在回报函数;其次,将回报函数作为轨迹生成训练的奖励函数,利用DDPG网络进行强化学习,训练最优轨迹生成网络模型,使其能够综合众多专家的策略部署能力;最后,对提出的方法在SC2LE平台进行验证,通过对比不同回报函数的训练收敛效果与实际生成策略得分能力来证明了算法的有效性。 展开更多
关键词 逆向强化学习 强化学习 sc2le
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部