基于观测重构的多智能体强化学习方法被引量：1

Multi-agent Reinforcement Learning Method Based on Observation Reconstruction

下载PDF

导出

摘要共同知识是多智能体系统内众所周知的知识集。如何充分利用共同知识进行策略学习,是多智能体独立学习系统中的一个挑战性问题。针对这一问题,围绕共同知识提取和独立学习网络设计,提出了一种基于观测重构的多智能体强化学习方法IPPO-CKOR。首先,对智能体的观测信息进行共同知识特征的计算与融合,得到融合共同知识特征的观测信息;其次,采用基于共同知识的智能体选择算法,选择关系密切的智能体,并使用重构特征生成机制构建它们的特征信息,其与融合共同知识特征的观测信息组成重构观测信息,用于智能体策略的学习与执行;最后,设计了一个基于观测重构的独立学习网络,使用多头自注意力机制对重构观测信息进行处理,使用一维卷积和GRU层处理观测信息序列,使得智能体能够从观测信息序列中提取出更有效的特征,有效缓解了环境非平稳与部分可观测问题带来的影响。实验结果表明,相较于现有典型的采用独立学习的多智能体强化学习方法,所提方法在性能上有显著提升。 Common knowledge is a well-known knowledge set within a multi-agent system.How to make full use of common knowledge for strategic learning is a challenging problem in multi-agent independent learning systems.In addressing this pro-blem,this paper proposes a multi-agent reinforcement learning method called IPPO-CKOR based on observation reconstruction,focusing on common knowledge extraction and independent learning network design.Firstly,the common knowledge features of agents’observation information are computed and fused to obtain fused observation information with common knowledge features.Secondly,an agent selection algorithm based on common knowledge is used to select closely related agents,and a feature generation mechanism based on reconstruction is employed to construct their feature information.The reconstructed observation information,composed of the fused observation information with common knowledge features,is utilized for learning and executing agent policies.Thirdly,a network structure based on observation reconstruction is designed,which employs multi-head self-attention mechanism to process the reconstructed observation information and uses one-dimensional convolution and GRU layers to handle observation information sequences.This enables the agents to extract more effective features from the observation information sequences,effectively alleviating the impact of non-stationary environments and partially observable problems.Experimental results demonstrate that the proposed method outperforms existing typical multi-agent reinforcement learning methods that employ independent learning in terms of performance.

作者史殿习胡浩萌宋林娜杨焕焕欧阳倩滢谭杰夫陈莹 SHI Dianxi;HU Haomeng;SONG Linna;YANG Huanhuan;OUYANG Qianying;TAN Jiefu;CHEN Ying(Intelligent Game and Decision Lab(IGDL),Beijing 100091,China;College of Computer,National University of Defense Technology,Changsha 410073,China;Tianjin Artificial Intelligence Innovation Center,Tianjin 300457,China;National Innovation Institute of Defense Technology,Beijing 100071,China)

机构地区智能博弈与决策实验室国防科技大学计算机学院天津(滨海)人工智能创新中心国防科技创新研究院

出处《计算机科学》 CSCD 北大核心 2024年第4期280-290,共11页 Computer Science

基金科技部科技创新2030-重大项目(2020AAA0104802) 国家自然科学基金(91948303)。

关键词观测重构多智能体协作策略多智能体强化学习独立学习 Observation reconstruction Multi-agent cooperative strategy Multi-agent reinforcement learning Independent learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1李杨,徐峰,谢光强,黄向龙.多智能体技术发展及其应用综述[J].计算机工程与应用,2018,54(9):13-21. 被引量：39

二级参考文献13

1石纯一,王克宏,王学军,康小强,罗翊,胡军.分布式人工智能进展[J].模式识别与人工智能,1995,8(A01):72-92. 被引量：18
2谢光强,章云.多智能体系统协调控制一致性问题研究综述[J].计算机应用研究,2011,28(6):2035-2039. 被引量：28
3李少斌,陈炎财,杨忠,黄宵宁,杨成顺.具有通信延迟的多无人机编队飞行控制[J].信息与控制,2012,41(2):142-146. 被引量：18
4尉建龙,仇智慧.基于二阶动力学模型的非完整多个体系统有限时间一致性问题研究[J].天津理工大学学报,2013,29(3):1-4. 被引量：2
5魏瑞轩,茹常剑,祁晓明.通信延迟条件下无人机编队重构的自主安全控制[J].控制理论与应用,2013,30(9):1099-1108. 被引量：9
6张瑞雷,李胜,陈庆伟.车式移动机器人动态编队控制方法[J].机器人,2013,35(6):651-656. 被引量：17
7刘金琨,尔联洁.多智能体技术应用综述[J].控制与决策,2001,16(2):133-140. 被引量：108
8徐志强,陈雪波.包含原理的群体机器人队形一致协调控制[J].智能系统学报,2015,10(2):301-306. 被引量：4
9王振华,徐娟娟,张焕水.受未知通信时滞影响的高阶多智能体系统的趋同[J].控制理论与应用,2015,32(3):295-303. 被引量：2
10明平松,刘建昌.随机多智能体系统一致稳定性分析[J].控制与决策,2016,31(3):385-393. 被引量：20

共引文献38

1瞿吉,董学育,安允展.采用一致性下垂控制的多储能微电网的协调运行研究[J].南京工程学院学报（自然科学版）,2018,16(4):34-40.
2颜功达,董鹏,文昊林.基于多智能体的复杂工程项目进度风险评估仿真建模[J].计算机科学,2019,46(B06):523-526. 被引量：12
3刘清堂,巴深,罗磊,张翼恒,吴林静.教育智能体对认知学习的作用机制研究述评[J].远程教育杂志,2019,37(5):35-44. 被引量：15
4董鹏,吴翀,余鹏,文昊林.基于多智能体的海上垂直补给规划仿真研究[J].计算机科学,2019,46(S11):72-75. 被引量：2
5茆汉国,张建德.多智能体系统的非震颤固定时间一致性[J].计算机工程与应用,2020,56(4):158-162. 被引量：3
6孙彧,曹雷,陈希亮,徐志雄,赖俊.多智能体深度强化学习研究综述[J].计算机工程与应用,2020,56(5):13-24. 被引量：66
7张普,薛惠锋,高山.基于分布式自适应的多智能体容错一致性控制[J].航空学报,2020,41(3):274-286. 被引量：14
8赵晶,曹易.风景园林研究中的人工智能方法综述[J].中国园林,2020,36(5):82-87. 被引量：27
9李亚,张亚东,郭进,周慧.基于AUML的列控系统运营场景多智能体建模仿真研究[J].铁道标准设计,2020,64(8):137-142. 被引量：4
10许元云,何明,刘锦涛,周波,杨铖.碰撞锥检测改进的多智能体避障算法[J].计算机工程与应用,2020,56(18):63-68. 被引量：3

同被引文献13

1张友鹏,金煜翔,杨军霞,王东.高速列车分布式super-twisting滑模控制研究[J].电子测量与仪器学报,2023,37(11):187-196. 被引量：2
2高江,黄向慧.基于DRV8301的永磁同步电机控制系统研究[J].电力科学与工程,2017,33(11):7-11. 被引量：2
3张震,张丰收,宋卫东.基于GA优化BP网络的永磁同步电机PID控制方法研究[J].电力科学与工程,2019,35(8):7-11. 被引量：7
4李东亮,缪仲翠,王志浩,张靓.基于模型预测的多电机弱磁同步控制策略研究[J].电机与控制应用,2019,46(11):7-12. 被引量：9
5Yang Yu,Leyao Cong,Xia Tian,Zengqiang Mi,Yang Li,Zhen Fan,Hui Fan.A Stator Current Vector Orientation Based Multi-objective Integrative Suppressions of Flexible Load Vibration and Torque Ripple for PMSM Considering Electrical Loss[J].CES Transactions on Electrical Machines and Systems,2020,4(3):161-171. 被引量：6
6王文庆,朱一乔,惠新伟,张伟.地铁牵引电机气动噪声仿真关键因素研究[J].电机与控制应用,2021,48(7):61-67. 被引量：1
7葛育晓,赵荣珍.基于改进积分滑模控制多电机协同控制研究[J].振动与冲击,2021,40(22):138-143. 被引量：7
8闫飞,王树波.基于扰动观测器的机械臂自适应复合控制[J].控制工程,2022,29(4):763-768. 被引量：6
9宗学军,高芮,何戡.基于惯量辨识的永磁同步电机PI自整定控制[J].电气自动化,2022,44(4):4-7. 被引量：3
10迟世伟,刘慧博.基于前馈补偿的永磁同步电机自抗扰控制[J].电机与控制应用,2023,50(1):9-13. 被引量：6

引证文献1

1刘予涵,陈明峰,黄宵宁.城轨列车多永磁同步电机有限时间协同抗干扰控制策略[J].电力科学与工程,2024,40(5):9-18.

1吴梁红.基于“自动力”理念的小学语文片段习作实践研究——以小学高段片段写、片段改教学为例[J].福建陶研,2024(1):37-40.
2刘沙沙.混合式英语教学模式中自主学习能力的培养策略[J].济南职业学院学报,2024(1):37-41.
3李铁军,刘家奇,刘今越,贾晓辉.基元库构建思想的机器人动作与策略演示学习方法[J].计算机工程与应用,2024,60(8):90-98.
4李亚飞.在道德与法治课堂上开展探究式教学活动的实践研究[J].课堂内外（初中版）,2024(8):131-133.
5宋晓杰.指向核心素养提升的聋校高中数学概念教学——以“直线的倾斜角与斜率”教学为例[J].现代特殊教育,2024(5):43-45.
6赵小虎,吴若诚,江涵立.基于多智能体近端策略优化的无人机城市高层消防[J].长春工业大学学报,2023,44(6):552-562.
7丛明,温旭,王明昊,刘冬.基于迭代卡尔曼滤波器的GPS-激光-IMU融合建图算法[J].华南理工大学学报（自然科学版）,2024,52(3):75-83.
8林通.着眼于学生思维发展的提问策略教学——以《一个豆荚里的五粒豆》为例[J].小学语文,2024(3):32-34.
9李博一.人类命运共同体国际合作观的体系压力论析[J].印度洋经济体研究,2024(1):49-69. 被引量：1
10裴绍军.高程导入方法在矿山测量中的研究[J].能源与节能,2024(3):194-197.

计算机科学

2024年第4期

浏览历史

内容加载中请稍等...

基于观测重构的多智能体强化学习方法被引量：1

参考文献1

二级参考文献13

共引文献38

同被引文献13

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于观测重构的多智能体强化学习方法 被引量：1

参考文献1

二级参考文献13

共引文献38

同被引文献13

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于观测重构的多智能体强化学习方法被引量：1