基于异步合作更新的LSTM-MADDPG多智能体协同决策算法

LSTM⁃MADDPG multi⁃agent cooperative decision algorithm based on asynchronous collaborative update

导出

摘要针对完全合作型任务中,多智能体深度确定性策略梯度(MADDPG)算法存在信度分配以及训练稳定性差的问题,提出了一种基于异步合作更新的LSTM-MADDPG多智能体协同决策算法。基于差异奖励和值分解思想,利用长短时记忆(LSTM)网络提取轨迹序列间特征,优化全局奖励划分方法,实现各智能体的动作奖励分配;结合算法联合训练需求,构建高质量训练样本集,设计异步合作更新方法,实现LSTM-MADDPG网络的联合稳定训练。仿真结果表明,在协作捕获场景中,本文算法相较于QMIX的训练收敛速度提升了20.51%;所提异步合作更新方法相较于同步更新,归一化奖励值均方误差减小了57.59%,提高了算法收敛的稳定性。 In fully cooperative tasks,the MADDPG algorithm has credit assignment and poor stability of training problem.To address this problem,a LSTM-MADDPG multi-agent cooperative decision algorithm based on asynchronous collaborative update was proposed.According to the idea of Difference Reward and Value Decomposition,LSTM was used to extract the characteristics between trajectory sequences.The global reward division was optimized to realize the agent's reward distribution.In order to meet requirements of algorithm joint training,the high-quality training set was constructed.Then,the asynchronous cooperative update method was designed to joint train the LSTM-MADDPG network,and realize the cooperation of multi-agent.In cooperative capture scene,the simulation results show that the convergence speed of the proposed algorithm is increased by 20.51%compared with the QMIX.After the convergence of algorithm training,the update method of asynchronous cooperation reduces the mean square error of normalized reward value by 57.59%compared with synchronous update,which improves the stability of algorithm convergence.

作者高敬鹏王国轩高路 GAO Jing-peng;WANG Guo-xuan;GAO Lu(College of Information and Communication Engineering,Harbin Engineering University,Harbin 150001,China;National Key Laboratory of Science and Technology on Test Physics and Numerical Mathematics,Beijing Institute of Space Long March Vehicle,Beijing 100076,China)

机构地区哈尔滨工程大学信息与通信工程学院北京航天长征飞行器研究所试验物理与计算数学国家级重点实验室

出处《吉林大学学报（工学版）》 EI CAS CSCD 北大核心 2024年第3期797-806,共10页 Journal of Jilin University:Engineering and Technology Edition

基金电子信息系统复杂电磁环境效应国家重点实验室项目(CEMEE2021G0001).

关键词人工智能多智能体协同决策深度强化学习信度分配异步合作更新 artificial intelligence multi-agent coordination decision making deep reinforcement learning credit assignment update of asynchronous cooperation

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1杨顺,蒋渊德,吴坚,刘海贞.基于多类型传感数据的自动驾驶深度强化学习方法[J].吉林大学学报（工学版）,2019,49(4):1026-1033. 被引量：13
2施伟,冯旸赫,程光权,黄红蓝,黄金才,刘忠,贺威.基于深度强化学习的多机协同空战方法研究[J].自动化学报,2021,47(7):1610-1623. 被引量：49
3王乃钰,叶育鑫,刘露,凤丽洲,包铁,彭涛.基于深度学习的语言模型研究进展[J].软件学报,2021,32(4):1082-1115. 被引量：38

二级参考文献27

1南杨,李中健,叶文伟.基于强化学习的飞行自动驾驶仪设计[J].电子设计工程,2013,21(10):45-47. 被引量：3
2李超,柴玉梅,南晓斐,高明磊.基于深度学习的问题分类方法研究[J].计算机科学,2016,43(12):115-119. 被引量：25
3刘宇鹏,马春光,张亚楠.深度递归的层次化机器翻译模型[J].计算机学报,2017,40(4):861-871. 被引量：28
4冯超,景小宁,李秋妮,姚鹏.基于隐马尔可夫模型的空战决策点理论研究[J].北京航空航天大学学报,2017,43(3):615-626. 被引量：12
5夏伟,李慧云.基于深度强化学习的自动驾驶策略学习方法[J].集成技术,2017,6(3):29-40. 被引量：19
6杜慧,徐学可,伍大勇,刘悦,余智华,程学旗.基于情感词向量的微博情感分类[J].中文信息学报,2017,31(3):170-176. 被引量：21
7何旭,景小宁,冯超.基于蒙特卡洛树搜索方法的空战机动决策[J].空军工程大学学报（自然科学版）,2017,18(5):36-41. 被引量：11
8左家亮,杨任农,张滢,李中林,邬蒙.基于启发式强化学习的空战机动智能决策[J].航空学报,2017,38(10):212-225. 被引量：51
9孟光磊,马晓玉,刘昕,徐一民.基于混合动态贝叶斯网的无人机空战态势评估[J].指挥控制与仿真,2017,39(4):1-6. 被引量：16
10徐光达,吕超,王光辉,谢宇鹏.基于双矩阵对策的UCAV空战自主机动决策研究[J].舰船电子工程,2017,37(11):24-28. 被引量：12

共引文献97

1徐佳,胡春鹤.分布式多经验池的无人机自主避碰方法[J].信息与控制,2023,52(4):432-443.
2阿布都克力木·阿布力孜,张雨宁,阿力木江·亚森,郭文强,哈里旦木·阿布都克里木.预训练语言模型的扩展模型研究综述[J].计算机科学,2022,49(S02):43-54. 被引量：7
3康朝海,孙超,荣垂霆,刘鹏云.基于动态延迟策略更新的TD3算法[J].吉林大学学报（信息科学版）,2020,38(4):474-481. 被引量：2
4李文韬,谢小红,孙晓燕.基于深度强化学习的无人驾驶优化评价方法[J].现代计算机,2021,27(11):4-10. 被引量：1
5徐泽洲,曲大义,洪家乐,宋晓晨.智能网联汽车自动驾驶行为决策方法研究[J].复杂系统与复杂性科学,2021,18(3):88-94. 被引量：9
6于向军,槐元辉,姚宗伟,孙中朝,俞安.工程车辆无人驾驶关键技术[J].吉林大学学报（工学版）,2021,51(4):1153-1168. 被引量：15
7王庭晗,罗禹贡,刘金鑫,李克强.基于考虑状态分布的深度确定性策略梯度算法的端到端自动驾驶策略[J].清华大学学报（自然科学版）,2021,61(9):881-888. 被引量：5
8袁广盛,安宁.浅析话语分析方法在地缘环境解析中的应用[J].热带地理,2021,41(6):1132-1141. 被引量：5
9鲜斌,张诗婧,韩晓薇,蔡佳明,王岭.基于强化学习的无人机吊挂负载系统轨迹规划[J].吉林大学学报（工学版）,2021,51(6):2259-2267. 被引量：6
10郑丽敏,任乐乐.采用融合规则与BERT-FLAT模型对营养健康领域命名实体识别[J].农业工程学报,2021,37(20):211-218. 被引量：4

1江育俊.现代化供应链体系对区域经济高质量发展的影响[J].商展经济,2024(9):132-135.
2编辑部摘编.第29期清研大讲堂成功举办[J].轻型汽车技术,2024(3):69-69.
3韩悦,赵晓伟,沈书生.人机协同调节:复合脑视角下自我调节学习的新路径[J].电化教育研究,2024,45(5):20-26.
4陈婧雅,刘成刚.融合设计与计算思维的高中人工智能课程设计与探究[J].复印报刊资料（中学政治及其他各科教与学）,2022(5):19-23.
5陈恒,胡灵慧,郭凯.基于移动互联网的高校学籍档案管理系统设计[J].中国新技术新产品,2024(7):34-37.
6熊诚,巫朝霞.声誉评估的联邦学习激励机制设计与研究[J].信息记录材料,2024,25(2):196-200.
7齐红倩,张佳馨.农村普惠金融供给协同机制与效率分析[J].山东科技大学学报（社会科学版）,2024,26(2):63-78.
8潘禄生.基于强化学习的自动化渗透测试方法[J].电子制作,2024,32(9):107-110.
9郭子铭.激光与RF链路融合异质通信网络构建策略[J].通信电源技术,2024,41(7):175-177.
10李雅倩,陈西江,班亚,韩贤权,杨嘉乐.基于双层规划的城市交通疏散与应急车辆调度协同决策[J].武汉理工大学学报（信息与管理工程版）,2024,46(2):188-194.

吉林大学学报（工学版）

2024年第3期

浏览历史

内容加载中请稍等...

基于异步合作更新的LSTM-MADDPG多智能体协同决策算法

参考文献3

二级参考文献27

共引文献97

相关作者

相关机构

相关主题

浏览历史