期刊文献+
共找到618篇文章
< 1 2 31 >
每页显示 20 50 100
基于价值函数分解和通信学习机制的异构多智能体强化学习方法
1
作者 杜威 丁世飞 +2 位作者 郭丽丽 张健 丁玲 《计算机学报》 EI CAS CSCD 北大核心 2024年第6期1304-1322,共19页
许多现实世界的系统可以被建模为多智能体系统,多智能体强化学习为开发这些系统提供了一种有效的方法,其中基于集中训练与分散执行范式的价值函数分解方法得到了广泛的研究.然而现有的价值分解方法一般缺乏通信机制,在处理需要通信学习... 许多现实世界的系统可以被建模为多智能体系统,多智能体强化学习为开发这些系统提供了一种有效的方法,其中基于集中训练与分散执行范式的价值函数分解方法得到了广泛的研究.然而现有的价值分解方法一般缺乏通信机制,在处理需要通信学习的多智能体任务时表现不佳.同时,目前大多数通信机制都是针对同构多智能体环境设计的,没有考虑异构多智能体场景.在异构场景中,由于智能体动作空间或观测空间的异构性,智能体之间的信息共享并不直接.如果不能对智能体的异构性进行有效地建模处理,通信机制将变得无效,甚至会影响多智能体的协作性能.为了应对这些挑战,本文提出一个融合价值函数分解和通信学习机制的异构多智能体强化学习框架.具体地:(1)与采用同构图卷积网络的方法不同,该框架利用异构图卷积网络融合智能体的异构特征信息得到有效的嵌入;(2)利用通信学习模块获得的嵌入信息和局部观测历史计算每个智能体的动作价值,以选择和协调智能体的动作;(3)通过设计的互信息损失函数和价值函数分解模块的损失函数联合训练,能够有效地训练整个方法.本文首先在两个异构多智能体平台上进行实验,实验结果表明该方法能学到比基线方法更有效的策略,在两个平台上相比基线方法分别提高了 13%的平均奖励值和24%的平均胜率.此外,在交通信号控制场景中验证了该方法在现实系统中的可行性. 展开更多
关键词 价值函数分解 异构多智能体强化学习 通信机制 图神经网络 互信息 交通信号控制
下载PDF
多智能体深度强化学习研究进展 被引量:1
2
作者 丁世飞 杜威 +2 位作者 张健 郭丽丽 丁玲 《计算机学报》 EI CAS CSCD 北大核心 2024年第7期1547-1567,共21页
深度强化学习(Deep Reinforcement Learning,DRL)在近年受到广泛的关注,并在各种领域取得显著的成功.由于现实环境通常包括多个与环境交互的智能体,多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)获得蓬勃的发展... 深度强化学习(Deep Reinforcement Learning,DRL)在近年受到广泛的关注,并在各种领域取得显著的成功.由于现实环境通常包括多个与环境交互的智能体,多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)获得蓬勃的发展,在各种复杂的序列决策任务上取得优异的表现.本文对多智能体深度强化学习的工作进展进行综述,主要内容分为三个部分.首先,我们回顾了几种常见的多智能体强化学习问题表示及其对应的合作、竞争和混合任务.其次,我们对目前的MADRL方法进行了全新的多维度的分类,并对不同类别的方法展开进一步介绍.其中,我们重点综述值函数分解方法,基于通信的MADRL方法以及基于图神经网络的MADRL方法.最后,我们研究了MADRL方法在现实场景中的主要应用.希望本文能够为即将进入这一快速发展领域的新研究人员和希望获得全方位了解并根据最新进展确定新方向的现有领域专家提供帮助. 展开更多
关键词 多智能深度强化学习 基于值函数 基于策略 通信学习 图神经网络
下载PDF
多智能体双注意力自适应熵深度强化学习
3
作者 吴培良 袁旭东 +2 位作者 毛秉毅 陈雯柏 高国伟 《控制理论与应用》 EI CAS CSCD 北大核心 2024年第10期1930-1936,共7页
在执行–评价算法和最大熵强化学习算法中分别存在价值函数过高估计和温度参数脆弱性的问题,从而导致策略网络陷入局部最优.针对此问题,本文提出了一种基于双集中注意力机制与自适应温度参数的多智能体强化学习算法.首先,要构建出两个... 在执行–评价算法和最大熵强化学习算法中分别存在价值函数过高估计和温度参数脆弱性的问题,从而导致策略网络陷入局部最优.针对此问题,本文提出了一种基于双集中注意力机制与自适应温度参数的多智能体强化学习算法.首先,要构建出两个初始参数不同的具有注意力机制的评价网络,通过这两个评价网络对策略网络做出更加准确的评价,从而避免出现过高估计问题而导致策略网络陷入局部最优.其次,本文提出了自适应温度参数的最大熵强化学习算法,计算出每个智能体的策略熵和基线熵,从而动态调整温度参数以实现自适应调整智能体的探索.最后,在受限的合作导航环境和受限的宝藏收集环境中验证了本文算法的有效性,本文算法的平均总成本与平均总惩罚优于其他算法. 展开更多
关键词 多智能系统 强化学习 注意力机制 自适应熵 执行–评价
下载PDF
基于双视角建模的多智能体协作强化学习方法
4
作者 刘全 施眉龙 +1 位作者 黄志刚 张立华 《计算机学报》 EI CAS CSCD 北大核心 2024年第7期1582-1594,共13页
在多智能体协作领域,强化学习算法通过共享智能体的局部信息来实现智能体间的协作.但共享协作机制极易引发过度协作问题,导致智能体忽视自身局部观测信息,丧失策略多样性,最终陷入低效协作的困境.为了解决该问题,本文提出基于双视角建... 在多智能体协作领域,强化学习算法通过共享智能体的局部信息来实现智能体间的协作.但共享协作机制极易引发过度协作问题,导致智能体忽视自身局部观测信息,丧失策略多样性,最终陷入低效协作的困境.为了解决该问题,本文提出基于双视角建模的多智能体协作强化学习方法(Bi-View Modeling Collaborative Multi-Agent Reinforcement Learning,简称BVM-CMARL).该方法从局部和全局两个视角对智能体进行建模,分别用于产生多样性的策略和激励协作.在局部视角最大化局部变分与自身轨迹的互信息,激励智能体的策略多样性;同时在全局视角最大化全局变分与其他智能体动作的互信息,提高智能体协作水平.最后将局部变分训练出的局部Q值与全局变分训练出的全局Q值合并,避免低效协作.将BVM-CMARL算法应用于星际争霸多智能体挑战赛(StarCraft Multi-Agent Challenge,SMAC)中的等级觅食(Level-Based Foraging,LBF)和走廊(Hallway)等环境,与QMIX、QPLEX、RODE、EOI和MAVEN等5种目前优秀的强化学习算法相比,BVM-CMARL算法具有更好的稳定性和性能表现,在SMAC上的平均胜率为82.81%,比次优算法RODE高13.42%.通过设计模型变体,在消融实验中证明了双视角建模对BVM-CMARL的必要性. 展开更多
关键词 深度强化学习 多智能系统 多智能协作 协作建模 对比学习
下载PDF
基于多智能体深度强化学习的高速公路可变限速协同控制方法
5
作者 余荣杰 徐灵 章锐辞 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第7期1089-1098,共10页
面向高速公路多路段可变限速协同控制需求,针对高维参数空间高效训练寻优难题,提出了应用多智能体深度确定性策略梯度(MADDPG)算法的高速公路可变限速协同控制方法。区别于既有研究的单个智能体深度确定性策略梯度(DDPG)算法,MADDPG将... 面向高速公路多路段可变限速协同控制需求,针对高维参数空间高效训练寻优难题,提出了应用多智能体深度确定性策略梯度(MADDPG)算法的高速公路可变限速协同控制方法。区别于既有研究的单个智能体深度确定性策略梯度(DDPG)算法,MADDPG将每个管控单元抽象为具备Actor-Critic强化学习架构的智能体,在算法训练过程中共享各智能体的状态、动作信息,使得各智能体具备推测其余智能体控制策略的能力,进而实现多路段协同控制。基于开源仿真软件SUMO,在高速公路典型拥堵场景对提出的控制方法开展管控效果验证。实验结果表明,提出的MADDPG算法降低了拥堵持续时间和路段运行速度标准差,分别减少69.23%、47.96%,可显著提高交通效率与安全。对比单智能体DDPG算法,MADDPG可节约50%的训练时间并提高7.44%的累计回报值,多智能体算法可提升协同控制策略的优化效率。进一步,为验证智能体间共享信息的必要性,将MADDPG与独立多智能体DDPG(IDDPG)算法进行对比:相较于IDDPG,MADDPG可使拥堵持续时间、速度标准差均值的改善提升11.65%、19.00%。 展开更多
关键词 交通工程 可变限速协同控制 多智能深度强化学习 交通拥堵 高速公路 交通效率 交通安全
下载PDF
基于单/多智能体简化强化学习的电力系统无功电压控制 被引量:4
6
作者 马庆 邓长虹 《电工技术学报》 EI CSCD 北大核心 2024年第5期1300-1312,共13页
为了快速平抑分布式能源接入系统产生的无功电压波动,以强化学习、模仿学习为代表的机器学习方法逐渐被应用于无功电压控制。虽然现有方法能实现在线极速求解,但仍然存在离线训练速度慢、普适性不够等阻碍其应用于实际的缺陷。该文首先... 为了快速平抑分布式能源接入系统产生的无功电压波动,以强化学习、模仿学习为代表的机器学习方法逐渐被应用于无功电压控制。虽然现有方法能实现在线极速求解,但仍然存在离线训练速度慢、普适性不够等阻碍其应用于实际的缺陷。该文首先提出一种适用于输电网集中式控制的单智能体简化强化学习方法,该方法基于“Actor-Critic”架构对强化学习进行简化与改进,保留了强化学习无需标签数据与强普适性的优点,同时消除了训练初期因智能体随机搜索造成的计算浪费,大幅提升了强化学习的训练速度;然后,提出一种适用于配电网分布式零通信控制的多智能体简化强化学习方法,该方法将简化强化学习思想推广形成多智能体版本,同时采用模仿学习进行初始化,将全局优化思想提前注入各智能体,提升各无功设备之间的就地协同控制效果;最后,基于改进IEEE 118节点算例的仿真结果验证了所提方法的正确性与快速性。 展开更多
关键词 无功电压控制 集中式控制 智能简化强化学习 分布式控制 多智能简化强化学习
下载PDF
基于多智能体深度强化学习的车联网频谱共享 被引量:1
7
作者 王为念 苏健 +2 位作者 陈勇 张建照 唐震 《电子学报》 EI CAS CSCD 北大核心 2024年第5期1690-1699,共10页
针对高动态车联网环境中基站难以收集和管理瞬时信道状态信息的问题,提出了基于多智能体深度强化学习的车联网频谱分配算法.该算法以车辆通信延迟和可靠性约束条件下最大化网络吞吐量为目标,利用学习算法改进频谱和功率分配策略.首先通... 针对高动态车联网环境中基站难以收集和管理瞬时信道状态信息的问题,提出了基于多智能体深度强化学习的车联网频谱分配算法.该算法以车辆通信延迟和可靠性约束条件下最大化网络吞吐量为目标,利用学习算法改进频谱和功率分配策略.首先通过改进DQN模型和Exp3策略训练隐式协作智能体.其次,利用迟滞性Q学习和并发体验重放轨迹解决多智能体并发学习引起的非平稳性问题.仿真结果表明,该算法有效载荷平均成功交付率可达95.89%,比随机基线算法提高了16.48%,可快速获取近似最优解,在降低车联网通信系统信令开销方面具有显著优势. 展开更多
关键词 车联网 分布式频谱共享 多智能 深度强化学习
下载PDF
多智能体强化学习算法研究综述 被引量:1
8
作者 李明阳 许可儿 +2 位作者 宋志强 夏庆锋 周鹏 《计算机科学与探索》 CSCD 北大核心 2024年第8期1979-1997,共19页
近年来,多智能体强化学习算法技术已广泛应用于人工智能领域。系统性地分析了多智能体强化学习算法,审视了其在多智能体系统中的应用与进展,并深入调研了相关研究成果。介绍了多智能体强化学习的研究背景和发展历程,并总结了已有的相关... 近年来,多智能体强化学习算法技术已广泛应用于人工智能领域。系统性地分析了多智能体强化学习算法,审视了其在多智能体系统中的应用与进展,并深入调研了相关研究成果。介绍了多智能体强化学习的研究背景和发展历程,并总结了已有的相关研究成果;简要回顾了传统强化学习算法在不同任务下的应用情况;重点强调多智能体强化学习算法分类,并根据三种主要的任务类型(路径规划、追逃博弈、任务分配)对其在多智能体系统中的应用、挑战以及解决方案进行了细致的梳理与分析;调研了多智能体领域中现有的算法训练环境,总结了深度学习对多智能体强化学习算法的改进作用,提出该领域所面临的挑战并展望了未来的研究方向。 展开更多
关键词 智能 强化学习 多智能强化学习 多智能系统
下载PDF
基于两阶段深度强化学习算法的多智能体自由合谋竞价机理研究 被引量:1
9
作者 刘飞宇 王吉文 +1 位作者 王正风 王蓓蓓 《中国电机工程学报》 EI CSCD 北大核心 2024年第12期4626-4638,I0004,共14页
电力市场建设初期,不完善的监管机制为发电商提供了暗中交流,联合竞价的机会。然而,如何找到潜在的发电商合谋组合是相对困难的事情。针对这一问题,该文建立一种允许发电商自由联合的竞价模型,并提出全新的两阶段深度强化学习算法,来求... 电力市场建设初期,不完善的监管机制为发电商提供了暗中交流,联合竞价的机会。然而,如何找到潜在的发电商合谋组合是相对困难的事情。针对这一问题,该文建立一种允许发电商自由联合的竞价模型,并提出全新的两阶段深度强化学习算法,来求解由离散的合谋对象选择和连续的报价系数确定组合形成的离散、连续动作混合决策问题。在不同阻塞情况下,对发电商联合策略形成过程进行分析,并在大算例中验证了算法的有效性。仿真结果表明,所提出的方法可以对市场主体的自由联合行为进行有效模拟,发现潜在的合谋组合。 展开更多
关键词 两阶段深度强化学习 自由联合 多智能仿真 合谋竞价
下载PDF
多智能体强化学习方法综述 被引量:2
10
作者 陈人龙 陈嘉礼 +1 位作者 李善琦 谭营 《信息对抗技术》 2024年第1期18-32,共15页
在自动驾驶、团队配合游戏等现实场景的序列决策问题中,多智能体强化学习表现出了优秀的潜力。然而,多智能体强化学习面临着维度灾难、不稳定性、多目标性和部分可观测性等挑战。为此,概述了多智能体强化学习的概念与方法,并整理了当前... 在自动驾驶、团队配合游戏等现实场景的序列决策问题中,多智能体强化学习表现出了优秀的潜力。然而,多智能体强化学习面临着维度灾难、不稳定性、多目标性和部分可观测性等挑战。为此,概述了多智能体强化学习的概念与方法,并整理了当前研究的主要趋势和研究方向。研究趋势包括CTDE范式、具有循环神经单元的智能体和训练技巧。主要研究方向涵盖混合型学习方法、协同与竞争学习、通信与知识共享、适应性与鲁棒性、分层与模块化学习、基于博弈论的方法以及可解释性。未来的研究方向包括解决维度灾难问题、求解大型组合优化问题和分析多智能体强化学习算法的全局收敛性。这些研究方向将推动多智能体强化学习在实际应用中取得更大的突破。 展开更多
关键词 多智能强化学习 强化学习 多智能系统 协同 维度灾难
下载PDF
基于多智能体深度强化学习的车联网资源分配方法 被引量:1
11
作者 孟水仙 刘艳超 王树彬 《无线电工程》 2024年第6期1388-1397,共10页
在车联网中,合理分配频谱资源对满足不同车辆链路业务的服务质量(Quality of Service,QoS)需求具有重要意义。为解决车辆高速移动性和全局状态信息获取困难等问题,提出了一种基于完全分布式多智能体深度强化学习(Multi-Agent Deep Reinf... 在车联网中,合理分配频谱资源对满足不同车辆链路业务的服务质量(Quality of Service,QoS)需求具有重要意义。为解决车辆高速移动性和全局状态信息获取困难等问题,提出了一种基于完全分布式多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)的资源分配算法。该算法在考虑车辆通信延迟和可靠性的情况下,通过优化频谱选择和功率分配策略来实现最大化网络吞吐量。引入共享经验池机制来解决多智能体并发学习导致的非平稳性问题。该算法基于深度Q网络(Deep Q Network,DQN),利用长短期记忆(Long Short Term Memory,LSTM)网络来捕捉和利用动态环境信息,以解决智能体的部分可观测性问题。将卷积神经网络(Convolutional Neural Network,CNN)和残差网络(Residual Network,ResNet)结合增强算法训练的准确性和预测能力。实验结果表明,所提出的算法能够满足车对基础设施(Vehicle-to-Infrastructure,V2I)链路的高吞吐量以及车对车(Vehicle-to-Vehicle,V2V)链路的低延迟要求,并且对环境变化表现出良好的适应性。 展开更多
关键词 车联网 资源分配 多智能深度强化学习 深度Q网络
下载PDF
基于强化和模仿学习的多智能体寻路干扰者鉴别通信机制
12
作者 李梦甜 向颖岑 +1 位作者 谢志峰 马利庄 《计算机应用研究》 CSCD 北大核心 2024年第8期2474-2480,共7页
现有的基于通信学习的多智能体路径规划(multi-agent path finding,MAPF)方法大多可扩展性较差或者聚合了过多冗余信息,导致通信低效。为解决以上问题,提出干扰者鉴别通信机制(DIC),通过判断视场(field of view,FOV)中央智能体的决策是... 现有的基于通信学习的多智能体路径规划(multi-agent path finding,MAPF)方法大多可扩展性较差或者聚合了过多冗余信息,导致通信低效。为解决以上问题,提出干扰者鉴别通信机制(DIC),通过判断视场(field of view,FOV)中央智能体的决策是否因邻居的存在而改变来学习排除非干扰者的简洁通信,成功过滤了冗余信息。同时进一步实例化DIC,开发了一种新的高度可扩展的分布式MAPF求解器,基于强化和模仿学习的干扰者鉴别通信算法(disruptor identifiable communication based on reinforcement and imitation learning algorithm,DICRIA)。首先,由干扰者鉴别器配合DICRIA的策略输出层识别出干扰者;其次,在两轮通信中分别完成对干扰者与通信意愿发送方的信息更新;最后,DICRIA根据各模块的编码结果输出最终决策。实验结果表明,DICRIA的性能几乎在所有环境设置下都优于其他同类求解器,且相比基线求解器,成功率平均提高了5.2%。尤其在大尺寸地图的密集型问题实例下,DICRIA的成功率相比基线求解器甚至提高了44.5%。 展开更多
关键词 多智能 路径规划 强化学习 模仿学习 干扰者鉴别通信
下载PDF
基于多智能体深度强化学习的车联网区分业务资源分配算法
13
作者 蔡玉 官铮 +2 位作者 王增文 王学 杨志军 《计算机工程与科学》 CSCD 北大核心 2024年第10期1757-1764,共8页
车联网产生大量网络连接和差异化数据,针对单个智能体难以在动态场景下收集信道状态信息并进行区分业务的资源分配和链路调度,提出了基于多智能体深度强化学习的车联网区分业务资源分配算法。该算法以实现紧急业务链路干扰最小化约束下,... 车联网产生大量网络连接和差异化数据,针对单个智能体难以在动态场景下收集信道状态信息并进行区分业务的资源分配和链路调度,提出了基于多智能体深度强化学习的车联网区分业务资源分配算法。该算法以实现紧急业务链路干扰最小化约束下,V2V链路数据包成功交付率和V2I链路总容量最大化为目标,利用深度强化学习算法进行多个蜂窝用户和设备到设备用户共存的单天线车载网络中,频谱分配和功率选择的策略优化。每个智能体都利用DQN进行训练,智能体间共同与通信环境交互,通过全局奖励函数实现智能体间的协作。仿真结果表明,高负载场景下,相较于传统随机分配算法,该算法的V2I链路总吞吐量增加了3.76Mbps,V2V链路的数据包交付率提高了17.1%,紧急业务链路所受干扰相对于普通链路减少1.42dB,实现紧急业务链路的优先级保障,有效提高了V2I链路和V2V链路的总传输容量。 展开更多
关键词 车联网 频谱分配 强化学习 多智能 紧急业务
下载PDF
多智能体深度强化学习的图像特征分类方法
14
作者 张泽崴 张建勋 +2 位作者 邹航 李林 南海 《计算机工程与应用》 CSCD 北大核心 2024年第7期222-228,共7页
为解决在图像特征识别分类等机器学习任务中,存在输入图像数据复杂度过高且与部分数据与特征无关的问题,提出了一种多智能体深度强化学习的图像特征分类方法。将图像特征分类任务转化为一个部分可观测的马尔可夫决策过程。通过使用多个... 为解决在图像特征识别分类等机器学习任务中,存在输入图像数据复杂度过高且与部分数据与特征无关的问题,提出了一种多智能体深度强化学习的图像特征分类方法。将图像特征分类任务转化为一个部分可观测的马尔可夫决策过程。通过使用多个移动的同构智能体去收集部分图像信息,并研究智能体如何形成对图像的局部理解并采取行动,以及如何从局部观察的图像中提取相关特征并分类,以此降低数据复杂性和过滤掉不相关数据。通过改进的值函数分解方法训练智能体策略网络,对环境的全局回报按照每个智能体的贡献进行拆分,解决智能体的信度分配问题。该方法在MNIST手写数字数据集和NWPU-RESISC45遥感图像数据集上进行了验证,相比基线算法能够学习到更加有效的联合策略,分类过程拥有更好的稳定性,同时精确率也有提升。 展开更多
关键词 多智能 图像特征分类 深度强化学习 值函数分解
下载PDF
基于DQN的多智能体深度强化学习运动规划方法 被引量:2
15
作者 史殿习 彭滢璇 +3 位作者 杨焕焕 欧阳倩滢 张玉晖 郝锋 《计算机科学》 CSCD 北大核心 2024年第2期268-277,共10页
DQN方法作为经典的基于价值的深度强化学习方法,在多智能体运动规划等领域得到了广泛应用。然而,DQN方法面临一系列挑战,例如,DQN会过高估计Q值,计算Q值较为复杂,神经网络没有历史记忆能力,使用ε-greedy策略进行探索效率较低等。针对... DQN方法作为经典的基于价值的深度强化学习方法,在多智能体运动规划等领域得到了广泛应用。然而,DQN方法面临一系列挑战,例如,DQN会过高估计Q值,计算Q值较为复杂,神经网络没有历史记忆能力,使用ε-greedy策略进行探索效率较低等。针对这些问题,提出了一种基于DQN的多智能体深度强化学习运动规划方法,该方法可以帮助智能体学习到高效稳定的运动规划策略,无碰撞地到达目标点。首先,在DQN方法的基础上,提出了基于Dueling的Q值计算优化机制,将Q值的计算方式改进为计算状态值和优势函数值,并根据当前正在更新的Q值网络的参数选择最优动作,使得Q值的计算更加简单准确;其次,提出了基于GRU的记忆机制,引入了GRU模块,使得网络可以捕捉时序信息,具有处理智能体历史信息的能力;最后,提出了基于噪声的有效探索机制,通过引入参数化的噪声,改变了DQN中的探索方式,提高了智能体的探索效率,使得多智能体系统达到探索-利用的平衡状态。在PyBullet仿真平台的6种不同的仿真场景中进行了测试,实验结果表明,所提方法可以使多智能体团队进行高效协作,无碰撞地到达各自目标点,且策略训练过程稳定。 展开更多
关键词 多智能系统 运动规划 深度强化学习 DQN方法
下载PDF
基于多智能体强化学习的重载运输车队队列控制
16
作者 张海龙 赵永娟 +1 位作者 张鹏飞 董瀚萱 《兵器装备工程学报》 CAS CSCD 北大核心 2024年第8期45-50,66,共7页
重载运输队列作为现代战争战备物资高效运输方式,有效提升运输能力并降低运输成本。现有队列控制主要关注运动控制特征,忽略了重载特种车辆自身驱动系统构型下系统动力响应特性。基于此,提出了基于多智能体强化学习的重载运输车队队列... 重载运输队列作为现代战争战备物资高效运输方式,有效提升运输能力并降低运输成本。现有队列控制主要关注运动控制特征,忽略了重载特种车辆自身驱动系统构型下系统动力响应特性。基于此,提出了基于多智能体强化学习的重载运输车队队列控制策略,通过控制策略自主式参数优化实现重载队列协同控制,搭建了融合长短时记忆网络的柔性动力需求引导方法,将长期规划策略与短期控制策略解耦,并分别在双层马尔科夫链迭代,建立动力总成元件工况柔性调节控制方法。标准工况试验结果表明:所提出的队列控制策略使队列行驶过程中车头时距保持在1.2 s,动力电池荷电状态维持在35%~65%,并使发动机工作在高效经济区间内,有效提升了重载运输队列的稳定性、耐久性与燃油经济性。 展开更多
关键词 队列控制 重载特种车辆 多智能强化学习 长短时记忆网络 混合动力系统
下载PDF
深空探测器多智能体强化学习自主任务规划
17
作者 孙泽翼 王彬 +2 位作者 胡馨月 熊新 金怀平 《深空探测学报(中英文)》 CSCD 北大核心 2024年第3期244-255,共12页
针对深空探测器执行附着任务时各子系统协同规划自主性、快速性和自适应性的要求,提出一种基于近端策略优化方法的多智能体强化学习协同规划,将单智能体近端策略优化算法与多智能体混合式协作机制相融合,设计了一种多智能体自主任务规... 针对深空探测器执行附着任务时各子系统协同规划自主性、快速性和自适应性的要求,提出一种基于近端策略优化方法的多智能体强化学习协同规划,将单智能体近端策略优化算法与多智能体混合式协作机制相融合,设计了一种多智能体自主任务规划模型,并引入噪声正则化优势值解决多智能体集中训练中协同策略过拟合的问题。仿真结果表明,多智能体强化学习自主任务规划方法能根据实时环境变化,对智能自主优化小天体附着任务的协作策略适时调整,与改进前的算法相比提高了任务规划成功率和规划解的质量,缩短了任务规划的时间。 展开更多
关键词 多智能强化学习 深空探测自主任务规划 近端策略优化 小天附着
下载PDF
基于多智能体深度强化学习的解耦控制方法
18
作者 肖钟毓 夏钟升 +1 位作者 洪文晶 师佳 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期570-582,共13页
[目的]在现代工业生产过程中,实现复杂非线性多输入多输出系统的解耦控制对于生产过程的操作和优化都具有至关重要的意义.[方法]本文基于多智能体深度确定性策略梯度(MADDPG)算法,提出了一种解决复杂非线性多输入多输出系统解耦控制问... [目的]在现代工业生产过程中,实现复杂非线性多输入多输出系统的解耦控制对于生产过程的操作和优化都具有至关重要的意义.[方法]本文基于多智能体深度确定性策略梯度(MADDPG)算法,提出了一种解决复杂非线性多输入多输出系统解耦控制问题的设计方案,并通过连续搅拌反应过程的解耦控制仿真计算,验证了设计方案的有效性.[结果]验证结果表明:本文所提出的方案能够同时对连续搅拌反应过程中反应温度、产物摩尔流量两个被控量的设定控制目标进行跟踪调节,且在同样的控制目标下,该设计方案比单智能体方案和PID(proportional-integral-derivative control)控制方案都具有更好的稳定性与更小的稳态控制误差.[结论]仿真结果表明:针对复杂非线性多输入多输出系统的解耦控制问题,多智能体强化学习算法能够在不依赖于过程模型的基础上,实现复杂非线性多输入多输出系统的解耦控制,并保证较好的控制性能. 展开更多
关键词 多智能强化学习 解耦控制 深度确定性策略梯度 连续搅拌反应器 非线性多输入多输出系统
下载PDF
基于深度强化学习的多智能体角度跟踪方法设计
19
作者 毕千 钱程 +1 位作者 张可 王成 《计算机工程》 CAS CSCD 北大核心 2024年第11期10-17,共8页
在智能态势感知应用场景中,多智能体角度跟踪问题常出现在需要对移动目标进行监测和控制的场景。与传统的目标跟踪方法不同,角度跟踪任务不仅需要追踪目标的空间坐标,还需确定目标间的相对角度。现有控制方法在处理这类规模较大且易受... 在智能态势感知应用场景中,多智能体角度跟踪问题常出现在需要对移动目标进行监测和控制的场景。与传统的目标跟踪方法不同,角度跟踪任务不仅需要追踪目标的空间坐标,还需确定目标间的相对角度。现有控制方法在处理这类规模较大且易受环境变化影响的问题时往往效果不稳定或性能降低。为此,提出一种基于多智能体强化学习(MARL)的解决方案,首先建立多智能体角度跟踪问题的基础模型,然后设计1个多层次的仿真决策框架并提出针对此问题适应性更强的多智能体强化学习算法AR-MAPPO,通过动态调整数据复用轮数以提升学习效率和模型稳定性。实验结果表明,该方法在多智能体角度跟踪任务中相比传统方法和其他强化学习方法具有更高的收敛效率和更优的角度跟踪性能。 展开更多
关键词 智能决策系统 人工智能 深度强化学习 多智能强化学习 角度跟踪
下载PDF
稀疏异质多智能体环境下基于强化学习的课程学习框架
20
作者 罗睿卿 曾坤 张欣景 《计算机科学》 CSCD 北大核心 2024年第1期301-309,共9页
现代战争的战场较大且兵种较多,利用多智能体强化学习(MARL)进行战场推演可以加强作战单位之间的协同决策能力,从而提升战斗力。当前MARL在兵棋推演研究和对抗演练中的应用普遍存在两个简化:各个智能体的同质化以及作战单位分布稠密。... 现代战争的战场较大且兵种较多,利用多智能体强化学习(MARL)进行战场推演可以加强作战单位之间的协同决策能力,从而提升战斗力。当前MARL在兵棋推演研究和对抗演练中的应用普遍存在两个简化:各个智能体的同质化以及作战单位分布稠密。实际战争场景中并不总是满足这两个设定,可能包含多种异质的智能体以及作战单位分布稀疏。为了探索强化学习在更多场景中的应用,分别就这两方面进行改进研究。首先,设计并实现了多尺度多智能体抢滩登陆环境M2ALE,M2ALE针对上述两个简化设定做了针对性的复杂化,添加了多种异质智能体和作战单位分布稀疏的场景,这两种复杂化设定加剧了多智能体环境的探索困难问题和非平稳性,使用常用的多智能体算法通常难以训练。其次,提出了一种异质多智能体课程学习框架HMACL,用于应对M2ALE环境的难点。HMACL包括3个模块:1)任务生成模块(STG),用于生成源任务以引导智能体训练;2)种类策略提升模块(CPI),针对多智能体系统本身的非平稳性,提出了一种基于智能体种类的参数共享(Class Based Parameter Sharing)策略,实现了异质智能体系统中的参数共享;3)训练模块(Trainer),通过从STG获取源任务,从CPI获取最新的策略,使用任意MARL算法训练当前的最新策略。HMACL可以缓解常用MARL算法在M2ALE环境中的探索难问题和非平稳性问题,引导多智能体系统在M2ALE环境中的学习过程。实验结果表明,使用HMACL使得MARL算法在M2ALE环境下的采样效率和最终性能得到大幅度的提升。 展开更多
关键词 多智能强化学习 作战仿真 课程学习 参数共享 多智能环境设计
下载PDF
上一页 1 2 31 下一页 到第
使用帮助 返回顶部