期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
合作-竞争混合型多智能体系统的虚拟遗憾优势自博弈方法
1
作者
张明悦
金芝
刘坤
《软件学报》
EI
CSCD
北大核心
2024年第2期739-757,共19页
合作-竞争混合型多智能体系统由受控的目标智能体和不受控的外部智能体组成.目标智能体之间互相合作,同外部智能体展开竞争,应对环境和外部智能体的动态变化,最终完成指定的任务.针对如何训练目标智能体使他们获得完成任务的最优策略的...
合作-竞争混合型多智能体系统由受控的目标智能体和不受控的外部智能体组成.目标智能体之间互相合作,同外部智能体展开竞争,应对环境和外部智能体的动态变化,最终完成指定的任务.针对如何训练目标智能体使他们获得完成任务的最优策略的问题,现有工作从两个方面展开:(1)仅关注目标智能体间的合作,将外部智能体视为环境的一部分,利用多智能体强化学习来训练目标智能体.这种方法难以应对外部智能体策略未知或者动态改变的情况;(2)仅关注目标智能体和外部智能体间的竞争,将竞争建模为双人博弈,采用自博弈的方法训练目标智能体.这种方法主要针对单个目标智能体和单个外部智能体的情况,难以扩展到由多个目标智能体和多个外部智能体组成的系统中.结合这两类研究,提出一种基于虚拟遗憾优势的自博弈方法.具体地,首先以虚拟遗憾最小化和虚拟多智能体策略梯度为基础,设计虚拟遗憾优势策略梯度方法,使目标智能体能更准确地更新策略;然后,引入模仿学习,以外部智能体的历史决策轨迹作为示教数据,模仿外部智能体的策略,显式地建模外部智能体的行为,来应对自博弈过程中外部智能体策略的动态变化;最后,以虚拟遗憾优势策略梯度和外部智能体行为建模为基础,设计一种自博弈训练方法,该方法能够在外部智能体策略未知或者动态变化的情况下,为多个目标智能体训练出最优的联合策略.以协同电磁对抗为研究案例,设计具有合作-竞争混合特征的3个典型任务.实验结果表明,同其他方法相比,所提方法在自博弈效果方面有至少78%的提升.
展开更多
关键词
多智能体强化学习
虚拟遗憾最小化
自博弈
动态决策
下载PDF
职称材料
题名
合作-竞争混合型多智能体系统的虚拟遗憾优势自博弈方法
1
作者
张明悦
金芝
刘坤
机构
西南大学计算机信息科学学院&软件学院
北京
大学
计算机
学院
高可信
软件
技术教育部重点实验室(北京
大学
)
出处
《软件学报》
EI
CSCD
北大核心
2024年第2期739-757,共19页
基金
国家自然科学基金(62192731)。
文摘
合作-竞争混合型多智能体系统由受控的目标智能体和不受控的外部智能体组成.目标智能体之间互相合作,同外部智能体展开竞争,应对环境和外部智能体的动态变化,最终完成指定的任务.针对如何训练目标智能体使他们获得完成任务的最优策略的问题,现有工作从两个方面展开:(1)仅关注目标智能体间的合作,将外部智能体视为环境的一部分,利用多智能体强化学习来训练目标智能体.这种方法难以应对外部智能体策略未知或者动态改变的情况;(2)仅关注目标智能体和外部智能体间的竞争,将竞争建模为双人博弈,采用自博弈的方法训练目标智能体.这种方法主要针对单个目标智能体和单个外部智能体的情况,难以扩展到由多个目标智能体和多个外部智能体组成的系统中.结合这两类研究,提出一种基于虚拟遗憾优势的自博弈方法.具体地,首先以虚拟遗憾最小化和虚拟多智能体策略梯度为基础,设计虚拟遗憾优势策略梯度方法,使目标智能体能更准确地更新策略;然后,引入模仿学习,以外部智能体的历史决策轨迹作为示教数据,模仿外部智能体的策略,显式地建模外部智能体的行为,来应对自博弈过程中外部智能体策略的动态变化;最后,以虚拟遗憾优势策略梯度和外部智能体行为建模为基础,设计一种自博弈训练方法,该方法能够在外部智能体策略未知或者动态变化的情况下,为多个目标智能体训练出最优的联合策略.以协同电磁对抗为研究案例,设计具有合作-竞争混合特征的3个典型任务.实验结果表明,同其他方法相比,所提方法在自博弈效果方面有至少78%的提升.
关键词
多智能体强化学习
虚拟遗憾最小化
自博弈
动态决策
Keywords
multi-agent reinforcement learning
counterfactual regret minimization
self-play
dynamic decision-making
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
合作-竞争混合型多智能体系统的虚拟遗憾优势自博弈方法
张明悦
金芝
刘坤
《软件学报》
EI
CSCD
北大核心
2024
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部