基于注意力消息共享的多智能体强化学习被引量：3

Multi-agent reinforcement learning based on attentional message sharing

下载PDF

导出

摘要通信是非全知环境中多智能体间实现有效合作的重要途径,当智能体数量较多时,通信过程会产生冗余消息。为有效处理通信消息,提出一种基于注意力消息共享的多智能体强化学习算法AMSAC。首先,在智能体间搭建用于有效沟通的消息共享网络,智能体通过消息读取和写入完成信息共享,解决智能体在非全知、任务复杂场景下缺乏沟通的问题;其次,在消息共享网络中,通过注意力消息共享机制对通信消息进行自适应处理,有侧重地处理来自不同智能体的消息,解决较大规模多智能体系统在通信过程中无法有效识别消息并利用的问题;然后,在集中式Critic网络中,使用Native Critic依据时序差分(TD)优势策略梯度更新Actor网络参数,使智能体的动作价值得到有效评判;最后,在执行期间,智能体分布式Actor网络根据自身观测和消息共享网络的信息进行决策。在星际争霸Ⅱ多智能体挑战赛(SMAC)环境中进行实验,结果表明,与朴素Actor⁃Critic(Native AC)、博弈抽象通信(GA⁃Comm)等多智能体强化学习方法相比,AMSAC在四个不同场景下的平均胜率提升了4~32个百分点。AMSAC的注意力消息共享机制为处理多智能体系统中智能体间的通信消息提供了合理方案,在交通枢纽控制和无人机协同领域都具备广泛的应用前景。 Communication is an important way to achieve effective cooperation among multiple agents in a non⁃omniscient environment.When there are a large number of agents,redundant messages may be generated in the communication process.To handle the communication messages effectively,a multi⁃agent reinforcement learning algorithm based on attentional message sharing was proposed,called AMSAC(Attentional Message Sharing multi⁃agent Actor⁃Critic).Firstly,a message sharing network was built for effective communication among agents,and information sharing was achieved through message reading and writing by the agents,thus solving the problem of lack of communication among agents in non⁃omniscient environment with complex tasks.Then,in the message sharing network,the communication messages were processed adaptively by the attentional message sharing mechanism,and the messages from different agents were processed with importance order to solve the problem that large⁃scale multi⁃agent system cannot effectively identify and utilize the messages during the communication process.Moreover,in the centralized Critic network,the Native Critic was used to update the Actor network parameters according to Temporal Difference(TD)advantage policy gradient,so that the action values of agents were evaluated effectively.Finally,during the execution period,the decision was made by the agent distributed Actor network based on its own observations and messages from message sharing network.Experimental results in the StarCraft Multi⁃Agent Challenge(SMAC)environment show that compared with Native Actor⁃Critic(Native AC),Game Abstraction Communication(GA⁃Comm)and other multi⁃agent reinforcement learning methods,AMSAC has an average win rate improvement of 4-32 percentage points in four different scenarios.AMSAC’s attentional message sharing mechanism provides a reasonable solution for processing communication messages among agents in a multi⁃agent system,and has broad application prospects in both transportation hub control and unmanned aerial vehicle collaboration.

作者臧嵘王莉史腾飞 ZANG Rong;WANG Li;SHI Tengfei(College of Data Science,Taiyuan University of Technology,Jinzhong Shanxi 030600,China;North Automatic Control Technology Institute,Taiyuan Shanxi 030006,China)

机构地区太原理工大学大数据学院北方自动控制技术研究所

出处《计算机应用》 CSCD 北大核心 2022年第11期3346-3353,共8页 journal of Computer Applications

基金国家自然科学基金资助项目(61872260)。

关键词多智能体系统智能体协同深度强化学习智能体通信注意力机制策略梯度 multi⁃agent system agent cooperation deep reinforcement learning agent communication attention mechanism policy gradient

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：470
2孙长银,穆朝絮.多智能体深度强化学习的若干关键科学问题[J].自动化学报,2020,46(7):1301-1312. 被引量：83

二级参考文献13

1魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
2高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
3王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：27
4孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：619
5余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：610
6傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014,37(3):677-686. 被引量：26
7黎亚雄,张坚强,潘登,胡惮.基于RNN-RBM语言模型的语音识别研究[J].计算机研究与发展,2014,51(9):1936-1944. 被引量：27
8杨钊,陶大鹏,张树业,金连文.大数据下的基于深度神经网的相似汉字识别[J].通信学报,2014,35(9):184-189. 被引量：28
9郑南宁.人工智能面临的挑战[J].自动化学报,2016,42(5):641-642. 被引量：32
10周志华.AlphaGo专题介绍[J].自动化学报,2016,42(5):670-670. 被引量：10

共引文献538

1刘莹莹,王占山.异构多智能体系统的输出同步:一个基于数据的强化学习方法[J].智能科学与技术学报,2020(4):394-400. 被引量：2
2宿帅,朱擎阳,魏庆来,唐涛,阴佳腾.基于DQN的列车节能驾驶控制方法[J].智能科学与技术学报,2020(4):372-384. 被引量：3
3傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
4李涛,魏庆来.基于深度强化学习的智能暖气温度控制系统[J].智能科学与技术学报,2020,2(4):348-353. 被引量：4
5刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：43
6韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
7张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376.
8李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
9周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：7
10李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1

同被引文献16

1胡文建,杨阳,刘保安,郑剑,常生强.基于粒子群算法的5G大规模MIMO通信系统效率评估[J].国外电子测量技术,2022,41(2):46-52. 被引量：3
2肖正,张世永.基于后悔值的多Agent冲突博弈强化学习模型[J].软件学报,2008,19(11):2957-2967. 被引量：6
3杜海文,崔明朗,韩统,魏政磊,唐传林,田野.基于多目标优化与强化学习的空战机动决策[J].北京航空航天大学学报,2018,44(11):2247-2256. 被引量：19
4赵玉鹏,樊占军.基于仿真推演的海战评估方法研究[J].舰船电子对抗,2019,42(3):1-4. 被引量：4
5陈蓓蓓,吴呈瑜,占敖.基于时域eICIC的小区覆盖扩展策略能效优化[J].无线电通信技术,2019,45(5):481-487. 被引量：1
6王海东,谭国平,周思源.基于时延约束的D2D异构网络资源动态分配[J].电子测量技术,2020,43(17):130-136. 被引量：3
7秦爽,董星辰,冯钢.超密集蜂窝网络智能干扰协调算法[J].中兴通讯技术,2020,26(5):45-52. 被引量：1
8陈亮,梁宸,张景异,刘韵婷.Actor-Critic框架下一种基于改进DDPG的多智能体强化学习算法[J].控制与决策,2021,36(1):75-82. 被引量：23
9王晓昌,吴璠,孙彦赞,吴雅婷.基于联邦深度强化学习的车联网资源分配[J].电子测量技术,2021,44(10):114-120. 被引量：4
10王泊涵,吴婷钰,李文浩,黄达,金博,杨峰,周爱民,王祥丰.基于多智能体强化学习的大规模无人机集群对抗[J].系统仿真学报,2021,33(8):1739-1753. 被引量：15

引证文献3

1张茜茜,李君,李正权,于心远.基于多智能体Actor-Critic算法的异构网络能效优化[J].电子测量技术,2022,45(22):12-18. 被引量：4
2罗睿卿,曾坤,张欣景.稀疏异质多智能体环境下基于强化学习的课程学习框架[J].计算机科学,2024,51(1):301-309.
3杜泳韬,赵岭忠,翟仲毅.基于注意力机制的信息预处理多智能体强化学习算法[J].国外电子测量技术,2024,43(3):91-97.

二级引证文献4

1刘喜生.基于进化神经网络的短期电网负荷预测算法[J].电力大数据,2023,26(4):11-18.
2周维庆,王飞,赵德京.基于双重限制Q学习的机器人控制方法[J].自动化与仪表,2024,39(3):61-65. 被引量：1
3韩东升,武霏云,宁晨.基于多维效用函数的多基站运行成本优化方法[J].电子测量技术,2024,47(3):156-165.
4符平博,陶旭,张见,李晖.异构网络中基于深度强化学习的用户关联与资源分配策略[J].国外电子测量技术,2024,43(4):39-47.

1孔垂跃,陈羽,赵乾名.基于MQTT协议的配电物联网云边通信映射研究[J].电力系统保护与控制,2021,49(8):168-176. 被引量：33
2许鹏波.公路设计与交通安全之间的关系[J].科技与创新,2022(21):150-152.
3官国飞,宋庆武,周向前,徐妍,李澄,蒋超.适用于UpnP电力物联网的网桥架构研究[J].现代科学仪器,2020(3):115-119.
4李宇璐,李隽.大类资产配置模型在固收+投资中的应用[J].债券,2022(11):88-92. 被引量：2
5詹敏,王铮,赵燕伟,任设东,汪磊.基于产品参数基元网络的变更传播路径优化[J].计算机集成制造系统,2022,28(8):2545-2556. 被引量：2
6何湘远,尘军,郭昊,余卓阳,田博.基于深度强化学习的高速飞行器攻防博弈[J].航天控制,2022,40(4):76-83. 被引量：2
7吴鹏,魏上清,董嘉鹏,潘理.基于SARSA强化学习的审判人力资源调度方法[J].计算机技术与发展,2022,32(9):82-88. 被引量：2
8王川,涂宽,谌华,耿丹,王文龙,李樵民.Stacking InSAR和IPTA技术应用于探测宁夏隆德县滑坡隐患[J].自然灾害学报,2022,31(5):222-234. 被引量：3
9刘洪政,普承恩,胡洲,赖玉敏,曹海,崔允红,黄松.弹上电气系统大基数时序台阶量自动判读方法[J].弹箭与制导学报,2022,42(4):62-68.
10于来宝,谢兴旺,宋晶,袁博.基于强化学习的过热汽温自适应PI控制器设计[J].江苏大学学报（自然科学版）,2022,43(6):685-690. 被引量：2

计算机应用

2022年第11期

浏览历史

内容加载中请稍等...

基于注意力消息共享的多智能体强化学习被引量：3

参考文献2

二级参考文献13

共引文献538

同被引文献16

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于注意力消息共享的多智能体强化学习 被引量：3

参考文献2

二级参考文献13

共引文献538

同被引文献16

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于注意力消息共享的多智能体强化学习被引量：3