-
题名基于元课程强化学习的多智能体协同博弈技术
被引量:3
- 1
-
-
作者
丁季时雨
孙科武
董博
杨皙睿
范长超
马喆
-
机构
中国航天科工集团有限公司第二研究院未来实验室
-
出处
《现代防御技术》
北大核心
2022年第5期36-42,共7页
-
基金
国家自然科学基金(62103386)。
-
文摘
多智能体协同博弈具有实时及动作连续性、非完全信息博弈、庞大的搜索空间、多复杂任务和时间空间推理等特点,是当前人工智能领域极具挑战的难题之一。针对大规模多智能体强化学习训练时间长、难以收敛等问题,提出了一种基于Actor-Critic的多智能体强化学习协同博弈框架,利用元课程强化学习方法对小规模场景进行基础课程元模型提取,并且基于课程学习向大规模场景进行模型迁移,在元模型基础上继续进行训练,扩展元模型策略网络,最终得到较优协同博弈策略。在《星际争霸Ⅱ》平台上进行仿真实验,结果表明:基于元课程强化学习的多智能体协同博弈技术可有效地加速其训练过程,相较于传统训练方法可以在较短时间内达到较高的胜率,训练速度提升约40%,该方法可有效支撑多智能体协同博弈策略的高效生成,为低资源下的强化学习高效训练奠定理论基础。
-
关键词
多智能体
强化学习
协同博弈
元课程学习
高效训练
-
Keywords
multi-agent
reinforcement learning
cooperative confrontation
meta turriculum learning
high efficiency training
-
分类号
V19
[航空宇航科学与技术—人机与环境工程]
TP391.9
[自动化与计算机技术—计算机应用技术]
-
-
题名基于强化学习的通信受限环境多无人机协同策略
被引量:3
- 2
-
-
作者
程进
胡寒栋
江业帆
张一博
丁季时雨
-
机构
航天科工集团智能科技研究院有限公司
航天防务智能系统与技术科研重点实验室
中国航天科工集团第二研究院
-
出处
《无人系统技术》
2022年第5期12-20,共9页
-
基金
基础科研项目(JCKY2020603B010)
国家自然科学基金(62103386,52202452)。
-
文摘
随着人工智能技术的发展,空域无人作战正由“单平台遥控”向“多平台协同”转变。多无人机协同作战任务具有非完全信息、通信受限、高实时、强动态等特点,给协同决策生成带来巨大挑战。针对通信受限环境中的多无人机协同决策问题,提出一种基于动态层级网络通信架构的通信强化学习协同策略,该策略能够显著减少无人机集群间的通信次数,同时准确传递其决策需要的信息,从而得到较优协同策略。针对多无人机协同围捕的典型任务场景,基于OpenAI平台对所提出的算法进行了仿真验证。结果表明,与传统强化学习算法相比,提出的通信强化学习策略可以显著减少无人机间的通信次数,同时在一定程度上避免潜在的信息欺骗问题。完成任务需要的平均通信次数相比于传统两两通信结构减少约77%,为实现通信受限环境中的多无人机协同任务提供技术支撑。
-
关键词
强化学习
通信受限
无人系统集群
多智能体协同
人工智能
-
Keywords
Reinforcement Learning
Limited Communication
Unmanned System Cluster
Multi-agent Coop-eration
Artificial Intelligence
-
分类号
V279
[航空宇航科学与技术—飞行器设计]
-