一种基于多步竞争网络的多智能体协作方法

A Method for Multi-Agent Cooperation Based on Multi-Step Dueling Network

下载PDF

导出

摘要多智能体高效协作是多智能体深度强化学习的重要目标,然而多智能体决策系统中存在的环境非平稳、维数灾难等问题使得这一目标难以实现。现有值分解方法可在环境平稳性和智能体拓展性之间取得较好平衡,但忽视了智能体策略网络的重要性,并且在学习联合动作值函数时未充分利用经验池中保存的完整历史轨迹。提出一种基于多智能体多步竞争网络的多智能体协作方法,在训练过程中使用智能体网络和价值网络对智能体动作评估和环境状态评估进行解耦,同时针对整条历史轨迹完成多步学习以估计时间差分目标,通过优化近似联合动作值函数的混合网络集中且端到端地训练分散的多智能体协作策略。实验结果表明,该方法在6种场景中的平均胜率均优于基于值分解网络、单调值函数分解、值函数变换分解、反事实多智能体策略梯度的多智能体协作方法,并且具有较快的收敛速度和较好的稳定性。 Multi-agent efficient cooperation is an important goal in Multi-Agent Deep Reinforcement Learning(MADRL);however,environmental non-stationarity and dimensionality disasters in multi-agent decision-making systems render it difficult to achieve this goal.Existing value-decomposition methods can achieve a good balance between environment stationarity and agent scalability.Nevertheless,some value-decomposition methods disregard the importance of the agent-policy network and do not fully utilize the full historical trajectories saved in the experience pool when learning joint action-value functions.Hence,a method for multi-agent cooperation based on Multi-agent Multi-step Dueling Network(MMDN)is proposed herein.First,action estimation and state estimation are decoupled through an independent agent network and a value network during training;additionally,the temporal-difference target is estimated via multistep learning for the entire history trajectory.Second,decentralized multi-agent cooperation policies are trained via a centralized end-to-end mode by optimizing a mixing network that approximates the joint action-value function.Experimental results show that the average winning rate of this method in six scenarios is better than those of multi-agent cooperative methods based on the Value-Decomposition Network(VDN),QMIX,QTRAN,and Counterfactual Multi-Agent(COMA)policy gradient.Additionally,it offers a higher convergence speed and better stability.

作者厉子凡王浩方宝富 LI Zifan;WANG Hao;FANG Baofu(School of Computer Science and Information Engineering,Hefei University of Technology,Hefei 230601,China)

机构地区合肥工业大学计算机与信息学院

出处《计算机工程》 CAS CSCD 北大核心 2022年第5期74-81,共8页 Computer Engineering

基金国家自然科学基金(61876206) 中央高校基本科研业务费专项资金(ACAIM190102) 安徽省自然科学基金(1708085MF146) 民航飞行技术与飞行安全重点实验室开放基金(FZ2020KF15)。

关键词多智能体协作深度强化学习值分解多步竞争网络动作值函数 multi-agent cooperation Deep Reinforcement Learning(DRL) value-decomposition multi-step dueling network action value function

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1徐西建,王子磊,奚宏生.基于深度强化学习的流媒体边缘云会话调度策略[J].计算机工程,2019,45(5):237-242. 被引量：8
2韩向敏,鲍泓,梁军,潘峰,玄祖兴.一种基于深度强化学习的自适应巡航控制算法[J].计算机工程,2018,44(7):32-35. 被引量：13

二级参考文献9

1王景武,金立生.车辆自适应巡航控制系统控制技术的发展[J].汽车技术,2004(7):1-4. 被引量：19
2张德兆,王建强,刘佳熙,李克强,连小珉.加速度连续型自适应巡航控制模式切换策略[J].清华大学学报（自然科学版）,2010,50(8):1277-1281. 被引量：30
3李军,倪宏,王玲芳,陈君.流媒体系统中基于请求迁移的任务调度算法[J].吉林大学学报（工学版）,2015,45(3):938-945. 被引量：2
4徐洪智,李仁发,曾理宁.基于Ptolemy的自适应巡航系统建模与仿真[J].计算机工程,2015,41(6):28-32. 被引量：3
5陆涛,刘箴,刘婷婷,刘翠娟,柴艳杰,方昊.基于跟驰模型的车辆虚拟仿真方法[J].计算机工程,2016,42(6):305-309. 被引量：5
6赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：131
7姜同全,王子磊,奚宏生.基于动态阈值分配的流媒体边缘云会话迁移策略[J].计算机工程,2017,43(1):55-60. 被引量：4
8凌滨,宋梦实.汽车自适应巡航系统车距控制策略研究[J].计算机仿真,2017,34(11):143-148. 被引量：17
9温暖,刘正华,祝令谱,孙扬.深度强化学习在变体飞行器自主外形优化中的应用[J].宇航学报,2017,38(11):1153-1159. 被引量：18

共引文献19

1赵健,宋东鉴,朱冰,刘斌,陈志成,张培兴.基于自学习和监督学习混合驱动的智能汽车跟驰控制策略[J].中国公路学报,2022,35(3):55-65. 被引量：4
2李大舟,沈雪雁,高巍,张小明,孟智慧.一种自学习的智能五子棋算法的设计与实现[J].小型微型计算机系统,2020,41(6):1169-1175. 被引量：3
3祁文凯,桑国明.基于延迟策略的最大熵优势演员评论家算法[J].小型微型计算机系统,2020,41(8):1656-1664. 被引量：1
4李传海,陈勇,刘海艳.一种基于驾驶风格的自适应巡航控制算法[J].自动化与仪器仪表,2020(9):161-165. 被引量：1
5王毅然,经小川,贾福凯,孙宇健,佟轶.基于多智能体协同强化学习的多目标追踪方法[J].计算机工程,2020,46(11):90-96. 被引量：7
6董永峰,杨琛,董瑶,屈向前,肖华昕,王子秋.基于改进的DQN机器人路径规划[J].计算机工程与设计,2021,42(2):552-558. 被引量：20
7潘峰,鲍泓.强化学习的自动驾驶控制技术研究进展[J].中国图象图形学报,2021,26(1):28-35. 被引量：14
8李闻斌,黄晟,庞璐宁.基于深度强化学习的流媒体边缘云会话调度策略[J].中国新通信,2021,23(3):133-134. 被引量：1
9张晶,蔡志全,韩永成,高丹.基于深度强化学习技术的变电站巡检机器人的路径规划研究[J].冶金动力,2021(3):4-7. 被引量：3
10李菊文.基于ETL和SVM的融媒体平台数据采集与分析技术研究[J].电子设计工程,2021,29(15):151-155. 被引量：2

1卢笑,竺一薇,阳牡花,周炫余,王耀南.联合图像与单目深度特征的强化学习端到端自动驾驶决策方法[J].武汉大学学报（信息科学版）,2021,46(12):1862-1871. 被引量：3
2周旭,葛愿,李文战,叶刚.面向海面油污清理的无人艇协同路径规划研究[J].电子测量技术,2021,44(24):26-31.
3何月.最优分红问题的研究综述[J].应用数学进展,2022,11(4):1757-1763.
4侯敏,敬鲁晶.基于椭球积分的集群扰动及其数值方法[J].理论数学,2022,12(4):482-489.
5龚竞秋.“2022金融科技供应链安全研讨会”圆满落幕[J].中国金融电脑,2022(4):91-91.
6国家精准医学产业创新中心揭牌[J].领导决策信息,2022(12):12-12.
7邵全权,杨浩,郝天琪,刘名.商业健康保险的劳动供给效应研究[J].保险职业学院学报,2022,36(2):28-38.
8高晶英,徐旭,何斯日古楞.具有伪领导者的多智能体系统动态牵制蜂拥控制算法[J].湖北民族大学学报（自然科学版）,2021,39(4):411-417. 被引量：2
9杜智华,赖振清.基于深度强化学习实时战略卡牌游戏对战设计[J].计算机仿真,2022,39(2):260-265. 被引量：3
10袁冬芳,刘文慧,崔桂梅,石琳.基于人工神经网络的椭圆型微分方程数值求解[J].宁夏大学学报（自然科学版）,2022,43(1):6-11.

计算机工程

2022年第5期

浏览历史

内容加载中请稍等...

一种基于多步竞争网络的多智能体协作方法

参考文献2

二级参考文献9

共引文献19

相关作者

相关机构

相关主题

浏览历史