基于改进的深度强化学习多智能体协作方法被引量：3

Multi-agent collaboration method based on improved deep reinforcement learning

下载PDF

导出

摘要针对多智能体深度强化学习在值函数拟合过程中未充分考虑智能体之间的作用关系,且动作大概率随机,导致迭代试错过程的数据浪费、协作效率低、收敛速度慢等问题,提出了一种在协作中的平均权重机制和改进的探索策略。首先,利用平均深度Q学习网络(DQN)在多智能体的值函数策略网络中设计一种权重结构,减小智能体间的不利影响;其次,改进探索策略,利用欧氏距离提高智能体的探索效率与策略协作性,增大系统跳出局部最小点的能力。通过多个场景实验的结果表明,所提方法提高了多智能体的学习能力和学习效率。 Aiming at the problem that multi-agent deep reinforcement learning,the action relationship between the agents is not fully considered in value function fitting process,and the action is random with high probability,which leads to data waste of iterative process of trial error,low collaboration efficiency,slow convergence speed,and so on,an average weight mechanism in collaboration and an improved exploration strategy are proposed.Firstly,the average deep Q learning network(DQN)is used to design a weight structure in the multi-agent value function strategy network to reduce the adverse influence among agents.Secondly,the exploration strategy is improved by using Euclidean distance,which not only improves exploration efficiency of the agent and strategic collaboration,but also increases the ability of the system to jump out of the local minimum point.The results of experiments in multiple scenarios show that the proposed method improves the learning ability and learning efficiency of multi-agents.

作者孙英博苗国英庄亚楠 SUN Yingbo;MIAO Guoying;ZHUANG Ya’nan(School of Automation,Nanjing University of Information Science&Technology,Nanjing 210044,China)

机构地区南京信息工程大学自动化学院

出处《传感器与微系统》 CSCD 北大核心 2023年第9期25-29,共5页 Transducer and Microsystem Technologies

基金国家自然科学基金资助项目(62073169) 江苏省“333工程”项目(BRA2020067)。

关键词多智能体深度强化学习平均权重协作策略 multi-agent deep reinforcement learning average weight collaboration policy

分类号 TP242 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献5

1李金娜,程薇燃.基于强化学习的数据驱动多智能体系统最优一致性综述[J].智能科学与技术学报,2020(4):327-340. 被引量：4
2孙长银,穆朝絮.多智能体深度强化学习的若干关键科学问题[J].自动化学报,2020,46(7):1301-1312. 被引量：86
3李铭浩,张华,刘满禄,李新茂,周祺杰.基于深度强化学习的机械臂容错控制方法[J].传感器与微系统,2020,39(1):53-55. 被引量：9
4刘岩,韩承德,王义和,李晓明.模拟退火算法的背景与单调升温的模拟退火算法[J].计算机研究与发展,1996,33(1):4-10. 被引量：20
5王春颖,刘平,秦洪政.移动机器人的智能路径规划算法综述[J].传感器与微系统,2018,37(8):5-8. 被引量：74

二级参考文献48

1董新民,丁超,陈勇,刘棕成,徐浩军.完全分布式异构多智能体系统有限时间跟踪[J].控制与决策,2020,35(4):870-876. 被引量：10
2李一波,张庆涛.室内未知环境遍历路径规划算法综述[J].计算机科学,2012,39(S3):334-338. 被引量：7
3戴博,肖晓明,蔡自兴.移动机器人路径规划技术的研究现状与展望[J].控制工程,2005,12(3):198-202. 被引量：75
4苏连成,朱枫.一种新的全向立体视觉系统的设计[J].自动化学报,2006,32(1):67-72. 被引量：23
5刘玲,王耀南,况菲,张辉.基于神经网络和遗传算法的移动机器人路径规划[J].计算机应用研究,2007,24(2):264-265. 被引量：23
6焦李成，神经网络系统理论，1990年
7瑞夫 F
8鲍庆勇,李舜酩,沈峘,门秀花.自主移动机器人局部路径规划综述[J].传感器与微系统,2009,28(9):1-4. 被引量：54
9陈晓娥,苏理.一种基于环境栅格地图的多机器人路径规划方法[J].机械科学与技术,2009,28(10):1335-1339. 被引量：9
10朱大奇,颜明重.移动机器人路径规划技术综述[J].控制与决策,2010,25(7):961-967. 被引量：334

共引文献188

1刘莹莹,王占山.异构多智能体系统的输出同步:一个基于数据的强化学习方法[J].智能科学与技术学报,2020(4):394-400. 被引量：2
2宿帅,朱擎阳,魏庆来,唐涛,阴佳腾.基于DQN的列车节能驾驶控制方法[J].智能科学与技术学报,2020(4):372-384. 被引量：4
3傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
4李涛,魏庆来.基于深度强化学习的智能暖气温度控制系统[J].智能科学与技术学报,2020,2(4):348-353. 被引量：4
5刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：51
6岳琪,曹军.改进的模拟退火算法在板式家具工业优化下料问题中的应用[J].计算机应用研究,2005,22(10):226-228. 被引量：1
7李少波,徐立章.基于HFC模型的模拟退火算法改进及应用实现[J].贵州科学,2007,25(B05):308-313.
8魏平,徐成贤.基于模拟退火算法优化分析与研究[J].装备制造技术,2008(7):1-3. 被引量：3
9高齐圣,吴自库,杨丰科.应用模拟退火原理寻找无团聚纳米粒子Zr(OH)_4制备的最佳工艺条件[J].青岛化工学院学报（自然科学版）,1998,19(1):80-83.
10潘伟杰,李少波,李杰,丁小宝.基于HFC-ADM模型对SA的改进及应用[J].贵州大学学报（自然科学版）,2009,26(2):67-70.

同被引文献23

1刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：487
2刘文兵,王艺栋.多无人机协同搜索多目标的路径规划问题研究[J].电光与控制,2019,26(3):35-38. 被引量：36
3刘畅,谢文俊,张鹏,郭庆,高超.多基地多无人机航迹避障任务规划[J].计算机工程,2019,45(11):275-280. 被引量：6
4刘庆周,吴锋.多智能体路径规划研究进展[J].计算机工程,2020,46(4):1-10. 被引量：22
5马卫华.导弹/火箭制导、导航与控制技术发展与展望[J].宇航学报,2020,41(7):860-867. 被引量：31
6贾高伟,王建峰.无人机集群任务规划方法研究综述[J].系统工程与电子技术,2021,43(1):99-111. 被引量：76
7文永明,石晓荣,黄雪梅,余跃.一种无人机集群对抗多耦合任务智能决策方法[J].宇航学报,2021,42(4):504-512. 被引量：16
8倪少杰,岳洋,左勇,刘文祥,肖伟,叶小舟.卫星网络路由技术现状及展望[J].电子与信息学报,2023,45(2):383-395. 被引量：7
9胡悦,高功应,朱斌,时鹏.5G专网与多卫星系统协同在应急领域的应用[J].邮电设计技术,2023(3):72-75. 被引量：2
10林萌龙,陈涛,任棒棒,张萌萌,陈洪辉.基于多智能体深度强化学习的体系任务分配方法[J].指挥与控制学报,2023,9(1):93-102. 被引量：3

引证文献3

1王雪鉴,文永明,石晓荣,张宁宁,刘洁玺.多智能体多耦合任务混合式智能决策架构设计[J].航空学报,2023,44(S02):418-425.
2徐飞,宁辛,安朔,申奥祥,王泽轩.M-DRL的低轨道卫星网络计算卸载和任务迁移[J].西安工业大学学报,2024,44(3):395-404.
3杨丁成,刘昇,潘朱良.DRL在卷烟厂AGV路径规划应用中的准确性优化研究[J].今日制造与升级,2024(6):107-110.

1刘俊池,张永玉.测绘新技术在高精度地形图中的应用[J].中文科技期刊数据库（全文版）工程技术,2022(6):71-74.
2曹银平.西门子为机床行业转型升级按下加速键[J].自动化博览,2023,40(7):22-23.
3付饶,陈立斌,汤琰成,王晓春,阎建全,向晓强.不同密度青贮玉米间作马铃薯侵蚀细沟发育研究[J].西北园艺（综合）,2023(5):69-73.
4黄品超,刘石坚,徐戈,邹峥.关联增强改进的CenterNet安全帽检测方法[J].计算机工程与应用,2023,59(17):250-256. 被引量：3
5周吴平,范晓琪,李庆红,卢铭,简伟研,李宪.DRG支付方式下高编码对医保支付的影响及特征分析[J].中国病案,2023,24(7):31-35. 被引量：2
6王潇霆,张易诚,沈炜.基于强化学习思想的地下车库车位排布研究[J].计算机时代,2023(9):54-58.
7阮晓钢,陈晓,朱晓庆.基于多重信息增益的移动机器人探索策略[J].北京工业大学学报,2023,49(9):990-998.
8刘莹,宁宁,王冰洁,张宁,钱瑜,吴群红.复杂适应系统理论视角下方舱医院感染防控管理困境表征及纾解策略探究[J].中国公共卫生管理,2023,39(4):446-448.
9林雅伦,王瑜.石质文物的虚拟修复技术——以成都博物馆馆藏石犀为例[J].文物鉴定与鉴赏,2023(13):26-29.
10任一夫,翟利志,刘强,刘金海.具有传递式探索能力的遥远域样本增强方法[J].控制工程,2023,30(6):1129-1136.

传感器与微系统

2023年第9期

浏览历史

内容加载中请稍等...

基于改进的深度强化学习多智能体协作方法被引量：3

参考文献5

二级参考文献48

共引文献188

同被引文献23

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于改进的深度强化学习多智能体协作方法 被引量：3

参考文献5

二级参考文献48

共引文献188

同被引文献23

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于改进的深度强化学习多智能体协作方法被引量：3