期刊文献+
共找到719篇文章
< 1 2 36 >
每页显示 20 50 100
多智能体强化学习算法研究综述
1
作者 李明阳 许可儿 +2 位作者 宋志强 夏庆锋 周鹏 《计算机科学与探索》 CSCD 北大核心 2024年第8期1979-1997,共19页
近年来,多智能体强化学习算法技术已广泛应用于人工智能领域。系统性地分析了多智能体强化学习算法,审视了其在多智能体系统中的应用与进展,并深入调研了相关研究成果。介绍了多智能体强化学习的研究背景和发展历程,并总结了已有的相关... 近年来,多智能体强化学习算法技术已广泛应用于人工智能领域。系统性地分析了多智能体强化学习算法,审视了其在多智能体系统中的应用与进展,并深入调研了相关研究成果。介绍了多智能体强化学习的研究背景和发展历程,并总结了已有的相关研究成果;简要回顾了传统强化学习算法在不同任务下的应用情况;重点强调多智能体强化学习算法分类,并根据三种主要的任务类型(路径规划、追逃博弈、任务分配)对其在多智能体系统中的应用、挑战以及解决方案进行了细致的梳理与分析;调研了多智能体领域中现有的算法训练环境,总结了深度学习对多智能体强化学习算法的改进作用,提出该领域所面临的挑战并展望了未来的研究方向。 展开更多
关键词 智能 强化学习 多智能强化学习 多智能系统
下载PDF
基于智能规划的多智能体强化学习算法
2
作者 辛沅霞 华道阳 张犁 《计算机科学》 CSCD 北大核心 2024年第5期179-192,共14页
目前深度强化学习算法在不同应用领域中已经取得诸多成果,然而在多智能体任务领域中,往往面临大规模的具有稀疏奖励的非稳态环境,低探索效率问题仍是一大挑战。由于智能规划能够根据任务的初始状态和目标状态快速制定出决策方案,该方案... 目前深度强化学习算法在不同应用领域中已经取得诸多成果,然而在多智能体任务领域中,往往面临大规模的具有稀疏奖励的非稳态环境,低探索效率问题仍是一大挑战。由于智能规划能够根据任务的初始状态和目标状态快速制定出决策方案,该方案能够作为各智能体的初始策略,并为其探索过程提供有效指导,因此尝试将智能规划与多智能体强化学习进行结合求解,并且提出统一模型UniMP(a Unified model for Multi-agent Reinforcement Learning and AI Planning)。在此基础上,设计并建立相应的问题求解机制。首先,将多智能体强化学习任务转化为智能决策任务;其次,对其执行启发式搜索,以得到一组宏观目标,进而指导强化学习的训练,使得各智能体能够进行更加高效的探索。在多智能体即时战略对抗场景StarCraftⅡ的各地图以及RMAICS战车模拟对战环境下进行实验,结果表明累计奖励值和胜率均有显著提升,从而验证了统一模型的可行性、求解机制的有效性以及所提算法灵活应对强化学习环境突发情况的能力。 展开更多
关键词 多智能强化学习 智能规划 启发式搜索 探索效率
下载PDF
带有序列选择模块的合作式多智能体强化学习算法研究
3
作者 杨圳豪 李智 《电子制作》 2024年第10期46-52,共7页
将强化学习算法延展至多智能体环境下,一直是一个具有挑战性的研究领域。而多智能体环境下的部分可观察性以及环境的不稳定性,使得无法将单智能体环境下的强化学习算法应用直接至多智能体环境。针对这些问题,提出了一种将序列模型与合... 将强化学习算法延展至多智能体环境下,一直是一个具有挑战性的研究领域。而多智能体环境下的部分可观察性以及环境的不稳定性,使得无法将单智能体环境下的强化学习算法应用直接至多智能体环境。针对这些问题,提出了一种将序列模型与合作式多智能体强化学习任务相结合的创新算法,称为MA2T,该算法的模型框架使用了改进的序列模型即带有自适应掩码的adaptive transformer,并加入了基于注意力机制的序列选择模块,该模块研究了智能体更新顺序对于算法的影响。在经典的多智能体强化学习的测试环境MPE以及Multi-Agent mujoco中的实验结果表明,MA2T算法的性能相比于一些经典多智能体强化学习基线算法如HAPPO、MAPPO以及MADDPG均有一定的提高,最后通过两组消融实验,分别验证了adaptive transformer以及序列选择模块的对于算法有效性和必要性。 展开更多
关键词 多智能环境 强化学习 TRANSFORMER 序列模型 注意力机制
下载PDF
基于注意力机制的信息预处理多智能体强化学习算法
4
作者 杜泳韬 赵岭忠 翟仲毅 《国外电子测量技术》 2024年第3期91-97,共7页
多智能体强化学习在群体控制领域具有广泛应用,然而传统的强化学习方法(如Q-Learning或策略梯度)在多智能体环境中表现不佳。在训练过程中,每个智能体的策略不断变化。当一个智能体基于环境信息做出决策时,其他智能体的决策可能已经影... 多智能体强化学习在群体控制领域具有广泛应用,然而传统的强化学习方法(如Q-Learning或策略梯度)在多智能体环境中表现不佳。在训练过程中,每个智能体的策略不断变化。当一个智能体基于环境信息做出决策时,其他智能体的决策可能已经影响了环境信息,导致智能体感知的转移概率分布和奖赏函数发生变化,使得环境变得非平稳,训练无法有效进行。为了缓解这一问题,研究了一种基于多头自注意力的多智能体强化学习算法。该方法考虑了其他智能体的行动策略,利用多头自注意力算法使智能体能够学习对决策影响最大的因素,成功地学习了复杂的多智能体协调策略。在实验结果中平均回报达值到了0.82,远高于传统算法的表现。实验结果表明,所提出的基于多头自注意力的多智能体强化学习算法能够有效解决环境不平稳导致的多智能体学习困难问题,提高了多智能体强化学习算法的收敛速度和平稳性。 展开更多
关键词 多智能强化学习 多头自注意力 信息预处理:策略梯度:非平稳
下载PDF
基于平均场内生奖励的多智能体强化学习算法
5
作者 孙文绮 李大鹏 +1 位作者 田峰 丁良辉 《无线电通信技术》 2023年第3期556-565,共10页
针对复杂的多智能体应用场景中只依靠根据最终目标设计的简单奖励函数无法对智能体学习策略做出有效引导的问题,提出了一种基于平均场内生奖励的多智能体强化学习(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidenc... 针对复杂的多智能体应用场景中只依靠根据最终目标设计的简单奖励函数无法对智能体学习策略做出有效引导的问题,提出了一种基于平均场内生奖励的多智能体强化学习(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidence Reinforcement Learning, M3IR-UCRL)算法。该算法在奖励函数中增加了内生奖励模块,用生成的内生奖励与定义任务的外部奖励一起帮助代表智能体在用平均场控制(Mean-Field Control, MFC)化简的多智能体系统中学习策略。智能体学习时首先按照期望累积内外奖励加权和的梯度方向更新策略参数,然后按照期望累积外部奖励的梯度方向更新内生奖励参数。仿真结果表明,相比于只用简单外部奖励引导智能体学习的(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidence Reinforcement Learning, M3-UCRL)算法,所提算法可以有效提高智能体在复杂的多智能体场景中的任务完成率,降低与周围环境的碰撞率,从而使算法的整体性能得到提升。 展开更多
关键词 多智能系统 平均场控制 基于模型的强化学习 内生奖励
下载PDF
基于通信的协作型多智能体强化学习算法综述
6
作者 田琪 吴飞 《航天控制》 CSCD 北大核心 2023年第4期13-19,共7页
多智能体系统在许多实际领域中得到了广泛应用,包括机器人技术、分布式控制和多人游戏等。这些领域中的许多复杂任务无法通过预定义的智能体行为来解决,而基于通信的多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)技术是... 多智能体系统在许多实际领域中得到了广泛应用,包括机器人技术、分布式控制和多人游戏等。这些领域中的许多复杂任务无法通过预定义的智能体行为来解决,而基于通信的多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)技术是应对这些挑战的有效方法之一。该领域存在2个核心问题:1)如何建立有效的多智能体通信机制,从而提升多智能体系统的整体性能;2)在带宽受限的场景下,如何设计高效的通信调度方案从而压缩通信过程中冗余信息。本文首先对处理这两个核心问题的文献进行了概述并重点介绍具有代表性的一些工作,接着说明其在航天领域的应用前景,最后进行总结。 展开更多
关键词 强化学习 通信机制 多智能系统
下载PDF
基于后验经验回放的MAAC多智能体强化学习算法
7
作者 夏琳 罗威 +1 位作者 王俊霞 黄一学 《软件》 2023年第2期17-22,41,共7页
[目的]针对多智能体强化学习过程中样本利用率低、奖励稀疏、收敛速度慢等问题,提出了一种基于后验经验回放的MAAC(Actor-Attention-Critic for Multi-Agent Reinforcement Learning,MAAC)多智能体强化学习(Hindsight Experience Replay... [目的]针对多智能体强化学习过程中样本利用率低、奖励稀疏、收敛速度慢等问题,提出了一种基于后验经验回放的MAAC(Actor-Attention-Critic for Multi-Agent Reinforcement Learning,MAAC)多智能体强化学习(Hindsight Experience Replay Machanism of MAAC Algorithm,HER-MAAC)算法。[方法]利用失败的探索经验,将依据后验经验回放算法选取的目标重新计算奖励值,存入回放缓冲区中,增大回放缓冲区中成功经验的比例,从而提升样本抽取效率。[结果]实验结果显示,HER-MAAC相较原始MAAC算法,智能体成功率提升,奖励值也明显提高。在典型试验环境下,训练3个智能体胜率提高了7.3%,智能体数量为4时胜率提高8.1%,智能体数目为5时胜率提高5.7%。[结论]研究成果表明,改进后的算法能够有效提升多智能体训练效率。 展开更多
关键词 多智能系统 深度强化学习 后验经验回放 注意力机制
下载PDF
一种新的多智能体强化学习算法及其在多机器人协作任务中的应用 被引量:7
8
作者 顾国昌 仲宇 张汝波 《机器人》 EI CSCD 北大核心 2003年第4期344-348,362,共6页
在多机器人系统中 ,评价一个机器人行为的好坏常常依赖于其它机器人的行为 ,此时必须采用组合动作以实现多机器人的协作 ,但采用组合动作的强化学习算法由于学习空间异常庞大而收敛得极慢 .本文提出的新方法通过预测各机器人执行动作的... 在多机器人系统中 ,评价一个机器人行为的好坏常常依赖于其它机器人的行为 ,此时必须采用组合动作以实现多机器人的协作 ,但采用组合动作的强化学习算法由于学习空间异常庞大而收敛得极慢 .本文提出的新方法通过预测各机器人执行动作的概率来降低学习空间的维数 ,并应用于多机器人协作任务之中 .实验结果表明 ,基于预测的加速强化学习算法可以比原始算法更快地获得多机器人的协作策略 . 展开更多
关键词 分布式强化学习 加速算法 多智能系统
下载PDF
基于参数逼近的多智能体强化学习算法 被引量:2
9
作者 赵高长 刘豪 苏军 《计算机工程与设计》 北大核心 2020年第3期862-866,共5页
为改善多智能体纳什Q学习算法适应性差、条件苛刻、运算复杂,且没有通用方法更新策略价值等问题,提出基于参数的算法改进思路。引入联合动作向量简化算法,引入参数,通过参数近似控制状态-行为值函数,转化训练目标,给出参数逼近的值函数... 为改善多智能体纳什Q学习算法适应性差、条件苛刻、运算复杂,且没有通用方法更新策略价值等问题,提出基于参数的算法改进思路。引入联合动作向量简化算法,引入参数,通过参数近似控制状态-行为值函数,转化训练目标,给出参数逼近的值函数更新方程,理论分析算法的收敛性及可行性。仿真结果表明,基于参数逼近的多智能体强化学习算法,能够使智能体100%达到纳什均衡,提高算法性能,简化算法复杂性,相比传统纳什Q学习算法能够较快收敛。 展开更多
关键词 智能系统 强化学习 马尔科夫博弈 Q学习 纳什均衡
下载PDF
基于自注意力机制和策略映射重组的多智能体强化学习算法 被引量:4
10
作者 李静晨 史豪斌 黄国胜 《计算机学报》 EI CAS CSCD 北大核心 2022年第9期1842-1858,共17页
多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)在群体控制领域中被广泛应用,但由于单个智能体的马尔可夫决策模型被破坏,现有的MARL算法难以学习到最优策略,且训练中智能体的随机性会导致策略不稳定.本文从状态空间到行... 多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)在群体控制领域中被广泛应用,但由于单个智能体的马尔可夫决策模型被破坏,现有的MARL算法难以学习到最优策略,且训练中智能体的随机性会导致策略不稳定.本文从状态空间到行为空间的映射出发,研究同构多智能体系统的耦合转换,以提高策略的先进性及稳定性.首先,我们调查了同构智能体行为空间的重组,打破智能体与策略对应的固定思维,通过构建抽象智能体将智能体之间的耦合转换为不同智能体行为空间同一维度的耦合,以提高策略网络的训练效率和稳定.随后,在重组策略映射的基础上,我们从序列决策的角度出发,为抽象智能体的策略网络和评估网络分别设计自注意力模块,编码并稀疏化智能体的状态信息.重组后的状态信息经过自注意力编码后,能显示地解释智能体的决策行为.本文在三个常用的多智能体任务上对所提出方法的有效性进行了全面的验证和分析,实验结果表明,在集中奖励的情况下,本文所提出的方法能够学到比基线方法更为先进的策略,平均回报提高了20%,且训练过程与训练结果的稳定性提高了50%以上.多个对应的消融实验也分别验证了抽象智能体与自注意力模块的有效性,进一步为我们的结论提供支持. 展开更多
关键词 多智能系统 多智能强化学习 深度强化学习 注意力机制
下载PDF
基于动态自选择参数共享的合作多智能体强化学习算法 被引量:1
11
作者 王涵 俞扬 姜远 《智能科学与技术学报》 2022年第1期75-83,共9页
在多智能体强化学习的研究中,参数共享作为学习过程中一种信息集中的方式,可以有效地缓解不稳定性导致的学习低效性。但是,在实际应用中智能体使用同样的策略往往会带来不利影响。为了解决此类过度共享的问题,提出了一种新的方法来赋予... 在多智能体强化学习的研究中,参数共享作为学习过程中一种信息集中的方式,可以有效地缓解不稳定性导致的学习低效性。但是,在实际应用中智能体使用同样的策略往往会带来不利影响。为了解决此类过度共享的问题,提出了一种新的方法来赋予智能体自动识别可能受益于共享参数的智能体的能力,并且可以在学习过程中动态地选择共享参数的对象。具体来说,智能体需要将历史轨迹编码为可表示其潜在意图的隐信息,并通过与其余智能体隐信息的对比选择共享参数的对象。实验表明,提出的方法在多智能体系统中不仅可以提高参数共享的效率,同时保证了策略学习的质量。 展开更多
关键词 多智能系统 强化学习 参数共享
下载PDF
序列多智能体强化学习算法 被引量:5
12
作者 史腾飞 王莉 黄子蓉 《模式识别与人工智能》 EI CSCD 北大核心 2021年第3期206-213,共8页
针对当前多智能体强化学习算法难以适应智能体规模动态变化的问题,文中提出序列多智能体强化学习算法(SMARL).将智能体的控制网络划分为动作网络和目标网络,以深度确定性策略梯度和序列到序列分别作为分割后的基础网络结构,分离算法结... 针对当前多智能体强化学习算法难以适应智能体规模动态变化的问题,文中提出序列多智能体强化学习算法(SMARL).将智能体的控制网络划分为动作网络和目标网络,以深度确定性策略梯度和序列到序列分别作为分割后的基础网络结构,分离算法结构与规模的相关性.同时,对算法输入输出进行特殊处理,分离算法策略与规模的相关性.SMARL中的智能体可较快适应新的环境,担任不同任务角色,实现快速学习.实验表明SMARL在适应性、性能和训练效率上均较优. 展开更多
关键词 多智能强化学习 深度确定性策略梯度(DDPG) 序列到序列(Seq2Seq) 分块结构
下载PDF
合作的多智能体强化学习算法
13
作者 秦前伟 邓喜才 《运筹与模糊学》 2022年第2期312-321,共10页
在多智能体的环境中,智能体的学习行为是一个有价值的研究内容。从系统设计者的角度来看,在同时存在多个智能体的环境中,能够让智能体朝着共同利益的最大化方向调整自己的行为策略,这是值得研究的。本文将提出一种合作的梯度算法(CL-WoL... 在多智能体的环境中,智能体的学习行为是一个有价值的研究内容。从系统设计者的角度来看,在同时存在多个智能体的环境中,能够让智能体朝着共同利益的最大化方向调整自己的行为策略,这是值得研究的。本文将提出一种合作的梯度算法(CL-WoLF-IGA),目的是让智能体朝着使得共同收益最大的策略学习。同时,为了让算法适用于马尔可夫博弈,我们放宽条件,提出CL-WoLF-PHC强化学习算法。该算法在只知道平均共同收益的未知环境中,也能够让使用算法的智能体最终达成能够使共同收益最大化的策略。同时,为了验证算法在实际博弈模型中的表现,我们用经典的博弈模型进行检验CL-WoLF-IGA算法。仿真结果表明,算法具有良好的收敛性。 展开更多
关键词 多智能强化学习 博弈论 合作学习
下载PDF
一种集群通信的多智能体强化学习算法
14
作者 段昶 陈亮 耿俊香 《沈阳理工大学学报》 CAS 2021年第4期11-17,共7页
人工智能中的许多任务需要多个智能体的协作,而智能体间有效通信是进行高效协作不可或缺的一步。为保证智能体间的通信高效,提出一种集群通信的多智能体强化学习算法MACDDPG,采用一种智能体集群机制将每个智能体分成不同的智能体群,只... 人工智能中的许多任务需要多个智能体的协作,而智能体间有效通信是进行高效协作不可或缺的一步。为保证智能体间的通信高效,提出一种集群通信的多智能体强化学习算法MACDDPG,采用一种智能体集群机制将每个智能体分成不同的智能体群,只允许智能体群内部的智能体进行通信;为加速收敛,采用集中训练、分散执行的框架;以多智能体粒子环境MPE为测试环境,设置多个不同的智能体相互协作来共同完成的任务。实验表明:在MPE环境中的4种任务场景下,使用MACDDPG算法比使用其他算法得分更高,且收敛速度更快;通过消融实验验证了MACDDPG算法中集群模块的有效性。 展开更多
关键词 多智能系统 集群通信 多智能协作 强化学习 信息过滤
下载PDF
基于博弈论与强化学习的多智能体路径规划算法
15
作者 熊文博 郭磊 焦彤宇 《深圳大学学报(理工版)》 CAS CSCD 北大核心 2024年第3期274-282,共9页
针对平面上多个智能体构成的路径规划求解算法普遍存在的速度慢效率低等问题进行研究,将多智能体路径规划问题归结为非零和随机博弈,使用多智能体强化学习算法赢或快速学习-策略爬山(win or learn fast-policy hill-climbing,WoLF-PHC)... 针对平面上多个智能体构成的路径规划求解算法普遍存在的速度慢效率低等问题进行研究,将多智能体路径规划问题归结为非零和随机博弈,使用多智能体强化学习算法赢或快速学习-策略爬山(win or learn fast-policy hill-climbing,WoLF-PHC)得到纳什均衡策略,为各智能体做出无冲突的最优路径决策,提出能够快速自适应的WoLF-PHC(fast adaptive WoLF-PHC,FA-WoLF-PHC)算法,通过构建目标函数,使用梯度下降对学习率进行自适应更新.在猜硬币和自定义收益矩阵2个博弈场景中使用FA-WoLF-PHC,并与策略爬山(policy hill-climbing,PHC)算法和Wolf-PHC算法进行比较.结果表明,FA-WoLF-PHC算法的学习速度较WoLF-PHC算法有所提升,并有效减小了WoLF-PHC算法和PHC算法在学习过程中出现的振荡现象.在多智能体路径规划问题中,FA-WoLF-PHC算法的学习速度比WoLF-PHC算法提高了16.01%.将路径规划问题的环境栅格地图扩大为6×6,智能体数量增加为3个时,FA-WoLF-PHC、WoLF-PSP和多头绒泡菌-人工势场Sarsa(physarum polycephalum-artificial potential state-action-reward-state-action,PP-AP Sarsa)算法在10次实验中学习到最终策略需要的平均时间分别为16.30、20.59和17.72 s.在多智能体路径规划问题中,FA-WoLF-PHC算法能够得到各智能体的纳什均衡策略,学习速度较WoLF-PSP和PP-AP Sarsa算法有显著提高.FA-WoLF-PHC算法在常见的博弈场景中能够快速获得纳什策略,在多智能体路径规划问题中可为多个智能体生成无冲突的最优路径,并且在学习速度等方面较其他算法有显著提高. 展开更多
关键词 人工智能 博弈论 动态规划 纳什均衡策略 强化学习 多智能路径规划
下载PDF
基于两阶段深度强化学习算法的多智能体自由合谋竞价机理研究
16
作者 刘飞宇 王吉文 +1 位作者 王正风 王蓓蓓 《中国电机工程学报》 EI CSCD 北大核心 2024年第12期4626-4638,I0004,共14页
电力市场建设初期,不完善的监管机制为发电商提供了暗中交流,联合竞价的机会。然而,如何找到潜在的发电商合谋组合是相对困难的事情。针对这一问题,该文建立一种允许发电商自由联合的竞价模型,并提出全新的两阶段深度强化学习算法,来求... 电力市场建设初期,不完善的监管机制为发电商提供了暗中交流,联合竞价的机会。然而,如何找到潜在的发电商合谋组合是相对困难的事情。针对这一问题,该文建立一种允许发电商自由联合的竞价模型,并提出全新的两阶段深度强化学习算法,来求解由离散的合谋对象选择和连续的报价系数确定组合形成的离散、连续动作混合决策问题。在不同阻塞情况下,对发电商联合策略形成过程进行分析,并在大算例中验证了算法的有效性。仿真结果表明,所提出的方法可以对市场主体的自由联合行为进行有效模拟,发现潜在的合谋组合。 展开更多
关键词 两阶段深度强化学习 自由联合 多智能仿真 合谋竞价
下载PDF
一种基于梯度的多智能体元深度强化学习算法
17
作者 赵春宇 赖俊 +1 位作者 陈希亮 张人文 《计算机应用研究》 CSCD 北大核心 2024年第5期1356-1361,共6页
多智能体系统在自动驾驶、智能物流、医疗协同等多个领域中广泛应用,然而由于技术进步和系统需求的增加,这些系统面临着规模庞大、复杂度高等挑战,常出现训练效率低和适应能力差等问题。为了解决这些问题,将基于梯度的元学习方法扩展到... 多智能体系统在自动驾驶、智能物流、医疗协同等多个领域中广泛应用,然而由于技术进步和系统需求的增加,这些系统面临着规模庞大、复杂度高等挑战,常出现训练效率低和适应能力差等问题。为了解决这些问题,将基于梯度的元学习方法扩展到多智能体深度强化学习中,提出一种名为多智能体一阶元近端策略优化(MAMPPO)方法,用于学习多智能体系统的初始模型参数,从而为提高多智能体深度强化学习的性能提供新的视角。该方法充分利用多智能体强化学习过程中的经验数据,通过反复适应,找到在梯度下降方向上最敏感的参数并学习初始参数,使模型训练从最佳起点开始,有效提高了联合策略的决策效率,显著加快了策略变化的速度,面对新情况的适应速度显著加快。在星际争霸Ⅱ上的实验结果表明,MAMPPO方法显著提高了训练速度和适应能力,为后续提高多智能强化学习的训练效率和适应能力提供了一种新的解决方法。 展开更多
关键词 学习 深度强化学习 梯度下降 多智能深度强化学习
下载PDF
多智能体深度强化学习研究进展
18
作者 丁世飞 杜威 +2 位作者 张健 郭丽丽 丁玲 《计算机学报》 EI CAS CSCD 北大核心 2024年第7期1547-1567,共21页
深度强化学习(Deep Reinforcement Learning,DRL)在近年受到广泛的关注,并在各种领域取得显著的成功.由于现实环境通常包括多个与环境交互的智能体,多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)获得蓬勃的发展... 深度强化学习(Deep Reinforcement Learning,DRL)在近年受到广泛的关注,并在各种领域取得显著的成功.由于现实环境通常包括多个与环境交互的智能体,多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)获得蓬勃的发展,在各种复杂的序列决策任务上取得优异的表现.本文对多智能体深度强化学习的工作进展进行综述,主要内容分为三个部分.首先,我们回顾了几种常见的多智能体强化学习问题表示及其对应的合作、竞争和混合任务.其次,我们对目前的MADRL方法进行了全新的多维度的分类,并对不同类别的方法展开进一步介绍.其中,我们重点综述值函数分解方法,基于通信的MADRL方法以及基于图神经网络的MADRL方法.最后,我们研究了MADRL方法在现实场景中的主要应用.希望本文能够为即将进入这一快速发展领域的新研究人员和希望获得全方位了解并根据最新进展确定新方向的现有领域专家提供帮助. 展开更多
关键词 多智能深度强化学习 基于值函数 基于策略 通信学习 图神经网络
下载PDF
基于双视角建模的多智能体协作强化学习方法
19
作者 刘全 施眉龙 +1 位作者 黄志刚 张立华 《计算机学报》 EI CAS CSCD 北大核心 2024年第7期1582-1594,共13页
在多智能体协作领域,强化学习算法通过共享智能体的局部信息来实现智能体间的协作.但共享协作机制极易引发过度协作问题,导致智能体忽视自身局部观测信息,丧失策略多样性,最终陷入低效协作的困境.为了解决该问题,本文提出基于双视角建... 在多智能体协作领域,强化学习算法通过共享智能体的局部信息来实现智能体间的协作.但共享协作机制极易引发过度协作问题,导致智能体忽视自身局部观测信息,丧失策略多样性,最终陷入低效协作的困境.为了解决该问题,本文提出基于双视角建模的多智能体协作强化学习方法(Bi-View Modeling Collaborative Multi-Agent Reinforcement Learning,简称BVM-CMARL).该方法从局部和全局两个视角对智能体进行建模,分别用于产生多样性的策略和激励协作.在局部视角最大化局部变分与自身轨迹的互信息,激励智能体的策略多样性;同时在全局视角最大化全局变分与其他智能体动作的互信息,提高智能体协作水平.最后将局部变分训练出的局部Q值与全局变分训练出的全局Q值合并,避免低效协作.将BVM-CMARL算法应用于星际争霸多智能体挑战赛(StarCraft Multi-Agent Challenge,SMAC)中的等级觅食(Level-Based Foraging,LBF)和走廊(Hallway)等环境,与QMIX、QPLEX、RODE、EOI和MAVEN等5种目前优秀的强化学习算法相比,BVM-CMARL算法具有更好的稳定性和性能表现,在SMAC上的平均胜率为82.81%,比次优算法RODE高13.42%.通过设计模型变体,在消融实验中证明了双视角建模对BVM-CMARL的必要性. 展开更多
关键词 深度强化学习 多智能系统 多智能协作 协作建模 对比学习
下载PDF
基于多智能体深度强化学习的高速公路可变限速协同控制方法
20
作者 余荣杰 徐灵 章锐辞 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第7期1089-1098,共10页
面向高速公路多路段可变限速协同控制需求,针对高维参数空间高效训练寻优难题,提出了应用多智能体深度确定性策略梯度(MADDPG)算法的高速公路可变限速协同控制方法。区别于既有研究的单个智能体深度确定性策略梯度(DDPG)算法,MADDPG将... 面向高速公路多路段可变限速协同控制需求,针对高维参数空间高效训练寻优难题,提出了应用多智能体深度确定性策略梯度(MADDPG)算法的高速公路可变限速协同控制方法。区别于既有研究的单个智能体深度确定性策略梯度(DDPG)算法,MADDPG将每个管控单元抽象为具备Actor-Critic强化学习架构的智能体,在算法训练过程中共享各智能体的状态、动作信息,使得各智能体具备推测其余智能体控制策略的能力,进而实现多路段协同控制。基于开源仿真软件SUMO,在高速公路典型拥堵场景对提出的控制方法开展管控效果验证。实验结果表明,提出的MADDPG算法降低了拥堵持续时间和路段运行速度标准差,分别减少69.23%、47.96%,可显著提高交通效率与安全。对比单智能体DDPG算法,MADDPG可节约50%的训练时间并提高7.44%的累计回报值,多智能体算法可提升协同控制策略的优化效率。进一步,为验证智能体间共享信息的必要性,将MADDPG与独立多智能体DDPG(IDDPG)算法进行对比:相较于IDDPG,MADDPG可使拥堵持续时间、速度标准差均值的改善提升11.65%、19.00%。 展开更多
关键词 交通工程 可变限速协同控制 多智能深度强化学习 交通拥堵 高速公路 交通效率 交通安全
下载PDF
上一页 1 2 36 下一页 到第
使用帮助 返回顶部