MADDPG算法经验优先抽取机制被引量：11

Multi-agent deep deterministic policy gradient algorithm via prioritized experience selected method

导出

摘要针对多智能体深度确定性策略梯度算法(MADDPG)学习训练效率低、收敛速度慢的问题,研究MADDPG算法经验优先抽取机制,提出PES-MADDPG算法.首先,分析MADDPG算法的模型和训练方法;然后,改进多智能体经验缓存池,以策略评估函数误差和经验抽取训练频率为依据,设计优先级评估函数,以优先级作为抽取概率获取学习样本训练神经网络;最后,在合作导航和竞争对抗2类环境中进行6组对比实验,实验结果表明,经验优先抽取机制可提高MADDPG算法的训练速度,学习后的智能体具有更好的表现,同时对深度确定性策略梯度算法(DDPG)控制的多智能体训练具有一定的适用性. In order to mitigate the problem of low efficiency and slow convergence of the multi-agent deep deterministic policy gradient(MADDPG)algorithm,the prioritized experience selection mechanism of MADDPG algorithm is studied and PES-MADDPG algorithm is proposed.Firstly,the model and the training method of the MADDPG algorithm are analyzed,the multi-agent experience buffer pool is ameliorated,and the priority evaluation function is designed based on the error of critic function and the training frequency of experience.The priority is treated as the selection probability to obtain the learning sample for training neural network.Finally,six groups of comparative experiments are conducted in both cooperative navigation and competitive environment.The experiments results show that the prioritized experience selection mechanism improves the training speed of the MADDPG algorithm,and the trained agents have better performance.The prioritized experience selection mechanism also has certain applicability to the training of multi-agents controlled by the deep detcrministic policy gradient(DDPG)algorithm.

作者何明张斌柳强陈希亮杨铖 HE Ming;ZHANG Bin;LIU Qiang;CHEN Xi-liang;YANG Cheng(College of Command and Control Engineering,The Army Engineering University of PLA,Nanjing 210007,China;Naval Command College,Nanjing 210000,China)

机构地区中国人民解放军陆军工程大学指挥控制工程学院海军指挥学院

出处《控制与决策》 EI CSCD 北大核心 2021年第1期68-74,共7页 Control and Decision

基金国家重点研发计划项目(2018YFC0806900,2016YFC0800606,2016YFC0800310) 江苏省自然科学基金项目(BK20161469) 江苏省重点研发计划项目(BE2016904,BE2017616,BE2018754) 中国博士后基金项目(2018M633757).

关键词多智能体深度强化学习 MADDPG 经验优先抽取 multi-agent deep reinforcement learning MADDPG prioritized experience selected method

分类号 TP273 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献3

1张斌,何明,陈希亮,吴春晓,刘斌,周波.改进DDPG算法在自动驾驶中的应用[J].计算机工程与应用,2019,55(10):264-270. 被引量：28
2陈希亮,曹雷,李晨溪,徐志雄,何明.基于重抽样优选缓存经验回放机制的深度强化学习方法[J].控制与决策,2018,33(4):600-606. 被引量：24
3夏伟,李慧云.基于深度强化学习的自动驾驶策略学习方法[J].集成技术,2017,6(3):29-40. 被引量：19

二级参考文献10

1何宁,赵治国,朱阳.基于TORCS平台的虚拟车辆仿真系统开发[J].中国制造业信息化（学术版）,2010,39(8):37-41. 被引量：5
2刘赫.动物行为训练的理论基础[J].中国动物保健,2014,16(2):23-25. 被引量：11
3杨帆.无人驾驶汽车的发展现状和展望[J].上海汽车,2014(3):35-40. 被引量：99
4翁岳暄,多尼米克.希伦布兰德.汽车智能化的道路:智能汽车、自动驾驶汽车安全监管研究[J].科技与法律,2014,0(4):632-655. 被引量：51
52016年底全国保有机动车达2.9亿辆[J].汽车维修与保养,2017,0(2):16-16. 被引量：4
6夏伟,李慧云.基于深度强化学习的自动驾驶策略学习方法[J].集成技术,2017,6(3):29-40. 被引量：19
7陈希亮,曹雷,李晨溪,徐志雄,何明.基于重抽样优选缓存经验回放机制的深度强化学习方法[J].控制与决策,2018,33(4):600-606. 被引量：24
8张新钰,高洪波,赵建辉,周沫.基于深度学习的自动驾驶技术综述[J].清华大学学报（自然科学版）,2018,58(4):438-444. 被引量：118
9何佳,戎辉,王文扬,田晓笛,高嵩,郭蓬.百度谷歌无人驾驶汽车发展综述[J].汽车电器,2017(12):19-21. 被引量：14
10Michael Ganger,Ethan Duryea,Wei Hu.Double Sarsa and Double Expected Sarsa with Shallow and Deep Learning[J].Journal of Data Analysis and Information Processing,2016,4(4):159-176. 被引量：10

共引文献64

1梁明兰,王峥,陈名松.基于可重构阵列架构的强化学习计算引擎[J].集成技术,2018,7(6):19-30. 被引量：1
2赵文仓,吴建辉.基于改进优先经验重放算法的游戏控制研究[J].甘肃科学学报,2018,30(2):15-19. 被引量：3
3张嘉丰.5G神经网络在自动驾驶技术中的应用[J].济南职业学院学报,2018(6):122-124. 被引量：1
4邹文超,李仁发,吴武飞.适应于自动驾驶的计算结构与平台综述[J].计算机工程与科学,2019,41(3):505-512. 被引量：2
5张斌,何明,陈希亮,吴春晓,刘斌,周波.改进DDPG算法在自动驾驶中的应用[J].计算机工程与应用,2019,55(10):264-270. 被引量：28
6何杨,肖基毅.基于深度强化学习的网络共享资源智能调度方法[J].自动化与仪器仪表,2019,0(6):80-82. 被引量：3
7董瑶,葛莹莹,郭鸿湧,董永峰,杨琛.基于深度强化学习的移动机器人路径规划[J].计算机工程与应用,2019,55(13):15-19. 被引量：29
8李妍,甄成刚.基于深度Q网络的虚拟装配路径规划[J].计算机工程与设计,2019,40(7):2032-2038. 被引量：3
9陈建平,邹锋,刘全,吴宏杰,胡伏原,傅启明.一种基于生成对抗网络的强化学习算法[J].计算机科学,2019,46(10):265-272. 被引量：11
10霍桂利.基于智能控制算法的自动驾驶系统优化研究[J].现代电子技术,2019,42(20):177-180. 被引量：7

同被引文献68

1周浦城,洪炳镕,王月海.动态环境下多机器人合作追捕研究[J].机器人,2005,27(4):289-295. 被引量：16
2毕盛,朱金辉,闵华清,钟汉如.基于模糊逻辑的机器人路径规划[J].机电产品开发与创新,2006,19(1):21-22. 被引量：7
3甘明刚,陈杰,刘劲,王亚楠.一种基于三帧差分和边缘信息的运动目标检测方法[J].电子与信息学报,2010,32(4):894-897. 被引量：74
4汪霜玲,何茜,何子述.非高斯杂波下分置天线MIMO雷达的动目标检测[J].计算机应用研究,2011,28(2):545-547. 被引量：1
5方宝富,潘启树,洪炳镕,丁磊,蔡则苏.多追捕者-单-逃跑者追逃问题实现成功捕获的约束条件[J].机器人,2012,34(3):282-291. 被引量：11
6聂俊岚,张庆杰,王艳芬.基于加权Voronoi图的无人飞行器航迹规划[J].飞行力学,2015,33(4):339-343. 被引量：17
7高春庆,肖明清,孔庆春,胡阳光.突防飞机对敌预警系统随队支援干扰任务分配[J].计算机仿真,2016,33(7):69-72. 被引量：3
8何旭,景小宁,冯超.基于蒙特卡洛树搜索方法的空战机动决策[J].空军工程大学学报（自然科学版）,2017,18(5):36-41. 被引量：12
9唐汇禹,彭世蕤,孙经蛟,刘香岚.支援干扰掩护下反辐射无人机突防技术[J].现代防御技术,2017,45(5):12-16. 被引量：8
10陈希亮,张永亮.基于深度强化学习的陆军分队战术决策问题研究[J].军事运筹与系统工程,2017,31(3):20-27. 被引量：23

引证文献11

1柴来,张婷婷,董会,王楠.基于分区缓存区重放与多线程交互的多智能体深度强化学习算法[J].计算机学报,2021,44(6):1140-1152. 被引量：5
2符小卫,王辉,徐哲.基于DE-MADDPG的多无人机协同追捕策略[J].航空学报,2022,43(5):522-535. 被引量：24
3畅鑫,李艳斌,赵研,杜宇峰,刘东辉.基于MA2IDDPG算法的异构多无人机协同突防方法[J].河北工业科技,2022,39(4):328-334. 被引量：3
4姚瑞琦,孙国皓,钟苏川,李志强,韩孟孟.面向雷达目标检测性能的多弹协同航迹规划[J].战术导弹技术,2022(4):157-167. 被引量：2
5周鑫,陈建平,傅启明.基于DDPG模型的建筑能耗控制方法[J].计算机应用与软件,2023,40(2):40-47. 被引量：3
6刘鹏,赵建新,张宏映,高腾飞,闫涛.基于改进型MADDPG的多智能体对抗策略算法[J].火力与指挥控制,2023,48(3):132-138. 被引量：2
7张磊,李姜,侯进永,高远,王烨.基于改进强化学习的多无人机协同对抗算法研究[J].兵器装备工程学报,2023,44(5):230-238. 被引量：1
8杜明芳,孙玥.基于学习控制的绿色数字孪生建造系统研究[J].智能建筑与智慧城市,2023(6):124-129. 被引量：1
9武曲,张义,郭坤,王玺.基于DPES Dueling DQN的路径规划方法研究[J].计算机应用与软件,2023,40(6):147-153. 被引量：2
10邢博闻,张昭夷,王世明,娄嘉奕,王五桂.基于深度强化学习的多无人艇协同目标搜索算法[J].兵器装备工程学报,2023,44(11):118-125. 被引量：1

二级引证文献44

1徐佳,胡春鹤.分布式多经验池的无人机自主避碰方法[J].信息与控制,2023,52(4):432-443.
2许旭升,党朝辉,宋斌,袁秋帆,肖余之.基于多智能体强化学习的轨道追逃博弈方法[J].上海航天（中英文）,2022,39(2):24-31. 被引量：14
3畅鑫,李艳斌,赵研,杜宇峰,刘东辉.基于MA2IDDPG算法的异构多无人机协同突防方法[J].河北工业科技,2022,39(4):328-334. 被引量：3
4李静晨,史豪斌,黄国胜.基于自注意力机制和策略映射重组的多智能体强化学习算法[J].计算机学报,2022,45(9):1842-1858. 被引量：7
5王欢,周旭,邓亦敏,刘小峰.分层决策多机空战对抗方法[J].中国科学：信息科学,2022,52(12):2225-2238. 被引量：4
6文超,董文瀚,解武杰,蔡鸣,胡多修.基于解耦型MADDPG的无人机集群自主跟踪与避障[J].飞行力学,2022,40(6):24-31. 被引量：1
7于月平,袁莞迈,段海滨.仿鹰-欧椋鸟智能行为的无人机集群追逃控制[J].指挥与控制学报,2022,8(4):422-433. 被引量：3
8成旭明,丛玉华,欧阳权,王志胜.基于IMM-PPO的无人机机动目标追踪[J].弹箭与制导学报,2022,42(6):46-54. 被引量：2
9魏雨东,张瑞瑞.改进强化学习的AI远程终端用户身份识别仿真[J].计算机仿真,2023,40(2):265-269. 被引量：1
10程玉虎,黄龙阳,侯棣元,张佳志,陈俊龙,王雪松.广义行为正则化离线Actor-Critic[J].计算机学报,2023,46(4):843-855. 被引量：2

1老鸭(译).俾斯麦海海战的反介入/区域拒止现实启示[J].现代舰船,2020(21):70-77.
2武思军.防御体系中的“决策中心战”[J].指挥与控制学报,2020,6(3):289-293. 被引量：14
3王科.XGM2019重力场模型在GPS高程拟合中的精度分析[J].测绘,2020,43(4):157-160. 被引量：7
4陈曦,徐刚,赵宗德.基于三维扫描顶衬与遮阳帘高精度尺寸策略研究[J].汽车实用技术,2021,46(1):132-133.
5张轶.品质成本对企业选择代工厂的影响研究[J].现代工业经济和信息化,2020,10(11):130-131.
6王晓,唐伦,贺小雨,陈前斌.基于深度强化学习的服务功能链多维资源优化[J].计算机工程与应用,2021,57(4):68-76. 被引量：1

控制与决策

2021年第1期

浏览历史

内容加载中请稍等...

MADDPG算法经验优先抽取机制被引量：11

参考文献3

二级参考文献10

共引文献64

同被引文献68

引证文献11

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

MADDPG算法经验优先抽取机制 被引量：11

参考文献3

二级参考文献10

共引文献64

同被引文献68

引证文献11

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

MADDPG算法经验优先抽取机制被引量：11