基于深度强化学习的多智能体对抗策略算法被引量：4

Multi-agent confrontation strategy algorithm based on deep reinforcement learning

下载PDF

导出

摘要针对在复杂军事化背景下多智能体决策算法探索效率低下、收敛缓慢的问题,提出了基于多头注意力机制和优先经验回放的多智能体深度确定性策略梯度算法(AP-MADDPG)。算法采用基于优先级的经验回放减少算法的训练时间;采用多头注意力机制在复杂的对抗环境中实现智能体之间的稳定、高效的合作竞争。实验结果表明,该算法可以使多智能体更加有效地学习联合策略,拥有更快的收敛速度和更好的稳定性,同时可以获得更高的回合奖励。 Aiming at the problem of low-efficiency exploration and slow convergence of multi-agent decision-making algorithms in the context of complex militarization,this paper proposes a multi-agent depth deterministic policy gradient algorithm(AP-MADDPG)based on muti-head-attention mechanism and prior experience replay mechanism.Priority experience replay replaces uniform sampling to reduce the training time of the algorithm;the multi-head attention mechanism is used to achieve stable and high-efficiency cooperation and competition between agents in a complex confrontation environment.Experimental results show that the algorithm can make multi-agent learn joint strategies more effectively.The algorithm has a faster convergence speed and better stability,and at the same time,obtains higher round rewards.

作者龚慧雯王桐陈立伟薛书钰金鼎筌 GONG Huiwen;WANG Tong;CHEN Liwei;XUE Shuyu;JIN Dingquan(College of Information and Communication Engineering,Harbin Engineering University,Harbin 150001,China;Key Laboratory of Advanced Marine Communication and Information Technology,Ministry ofIndustry and Information Technology,Harbin Engineering University,Harbin 150001,China)

机构地区哈尔滨工程大学信息与通信工程学院哈尔滨工程大学先进船舶通信与信息技术工业和信息化部重点实验室

出处《应用科技》 CAS 2022年第5期1-7,共7页 Applied Science and Technology

基金国家自然科学基金项目(61102105) 国防科技重点实验室基金项目(6142209190107) 先进船舶通信与信息技术工业和信息化部重点实验室项目(AMCIT2101-08) 中央高校基本科研业务费项目(3072021CF0813)。

关键词多智能体强化学习深度确定性策略优先经验回放多头注意力机制智能决策联合策略合作与竞争 multi-agent reinforcement learning deep deterministic strategy priority experience replay multi-head attention intelligent decision-making joint strategy cooperation and competition

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献49

1刘佳,陈增强,刘忠信.多智能体系统及其协同控制研究进展[J].智能系统学报,2010,5(1):1-9. 被引量：32
2李龙跃,刘付显,史向峰,梅颖颖.导弹攻防对抗中追逃对策模型与配点求解法[J].系统工程与电子技术,2016,38(5):1067-1073. 被引量：5
3李嘉龙,陈雨果,刘思捷,王宁,邹鹏,陈启鑫.考虑碳排放成本的电力市场均衡分析[J].电网技术,2016,40(5):1558-1563. 被引量：40
4姜立标,吴中伟.基于趋近律滑模控制的智能车辆轨迹跟踪研究[J].农业机械学报,2018,49(3):381-386. 被引量：38
5陈希亮,曹雷,李晨溪,徐志雄,何明.基于重抽样优选缓存经验回放机制的深度强化学习方法[J].控制与决策,2018,33(4):600-606. 被引量：24
6谢畅,王蓓蓓,赵盛楠,谈健,黄俊辉,谢珍建.基于双层粒子群算法求解电力市场均衡[J].电网技术,2018,42(4):1170-1176. 被引量：35
7苏义鑫,石兵华,张华军,李子璇,王晨.水面无人艇的抗追捕-逃跑策略[J].哈尔滨工程大学学报,2018,39(6):1019-1025. 被引量：4
8宋佳蓉,杨忠,张天翼,韩家明,朱家远.基于卷积神经网络和多类SVM的交通标志识别[J].应用科技,2018,45(5):71-75. 被引量：3
9彭春华,钱锟,闫俊丽.新能源并网环境下发电侧微分演化博弈竞价策略[J].电网技术,2019,43(6):2002-2009. 被引量：25
10孙惠娟,蒙锦辉,彭春华.风–光–水–碳捕集多区域虚拟电厂协调优化调度[J].电网技术,2019,43(11):4040-4049. 被引量：48

引证文献4

1薛雅丽,叶金泽,李寒雁.基于改进强化学习的多智能体追逃对抗[J].浙江大学学报（工学版）,2023,57(8):1479-1486.
2彭春华,易泰洵,孙惠娟,陈思畏.基于多智能体深度确定性策略梯度的电碳耦合市场发电商均衡竞价策略[J].电网技术,2023,47(10):4229-4236. 被引量：3
3邢博闻,张昭夷,王世明,娄嘉奕,王五桂.基于深度强化学习的多无人艇协同目标搜索算法[J].兵器装备工程学报,2023,44(11):118-125. 被引量：1
4李霞丽,王昭琦,刘博,吴立成.麻将博弈AI构建方法综述[J].智能系统学报,2023,18(6):1143-1155. 被引量：2

二级引证文献6

1代君学,李霞丽,刘博,王昭琦.国标麻将的多尺度骨干神经网络模型[J].重庆理工大学学报（自然科学）,2024,38(5):137-144.
2衣御寒,王亚杰,吴燕燕,刘松,张兴慧,蒋传禹.结合A2C和手牌估值方法的麻将博弈研究[J].重庆理工大学学报（自然科学）,2024,38(5):154-161.
3陈赟,周敏,赵文恺,王佳裕,彭佳雯,韩冬.电碳联合市场下发电商激励性竞价策略[J].电网技术,2024,48(9):3564-3573.
4卜晓东,袁红刚,褚福照,王雨婷.基于群体协同的无人水面艇任务优化策略研究[J].高科技与产业化,2024,30(8):17-19.
5赵会茹,赵一航,武昭原,李涵深,张慧琳,祁泽,张圆圆,郭森.电力市场、碳排放权交易市场以及核证自愿减排市场耦合下发电商竞价策略[J].电力建设,2024,45(10):123-135. 被引量：1
6Ran Zhang,Zelong Lu,Mohammad Shahidehpour,Zuyi Li,Lei Yan.Deciphering the electricity-carbon market nexus:Challenges and prospects of electricity-carbon coupling[J].Energy Internet,2024,1(1):34-51.

1包丹霞,金迪,郝宗霞.穴位贴敷联合穴位按摩在脑卒中患者康复管理中的应用[J].中医药管理杂志,2022,30(15):168-169. 被引量：1
2杨晓梅,李文汇,张宇琼,官开.多状态系统的生产计划与设备维修的联合决策[J].组合机床与自动化加工技术,2022(9):164-168. 被引量：2
3王俊娜,李璐,王明.肿瘤化疗患者开展心理护理联合饮食指导的效果观察[J].心理月刊,2022(12):104-106. 被引量：1
4张海滨.全球气候治理新形势[J].可持续发展经济导刊,2022(9):22-25. 被引量：2
5陈亮,郭婷,刘韵婷,杨佳明.基于过滤机制筛选信息的多智能体策略方法[J].控制与决策,2022,37(6):1643-1648.
6王传旭,林晓萌,林国丞.基于合作与竞争交互关系的组群行为识别算法[J].青岛科技大学学报（自然科学版）,2022,43(5):109-120. 被引量：1
7辇伟奇,许文婧,王佩,孙建国.肿瘤放疗联合免疫治疗之回顾与展望[J].肿瘤预防与治疗,2022,35(9):775-781. 被引量：1
8张永梅,赵家瑞,吴爱燕.好奇心驱动的深度强化学习机器人路径规划算法[J].科学技术与工程,2022,22(25):11075-11083. 被引量：8
9刘付燕.面向计算思维培养的跨学段衔接教学实践探索——以“鸡兔同笼”问题解决为例[J].中小学信息技术教育,2022(9):14-16. 被引量：2
10黄慕斌,辜建雄,林凯.KYN断路器温升算法探索[J].机电信息,2022(18):50-53. 被引量：1

应用科技

2022年第5期

浏览历史

内容加载中请稍等...

基于深度强化学习的多智能体对抗策略算法被引量：4

同被引文献49

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的多智能体对抗策略算法 被引量：4

同被引文献49

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的多智能体对抗策略算法被引量：4