期刊文献+
共找到1,049篇文章
< 1 2 53 >
每页显示 20 50 100
多智能体深度强化学习研究进展 被引量:3
1
作者 丁世飞 杜威 +2 位作者 张健 郭丽丽 丁玲 《计算机学报》 EI CAS CSCD 北大核心 2024年第7期1547-1567,共21页
深度强化学习(Deep Reinforcement Learning,DRL)在近年受到广泛的关注,并在各种领域取得显著的成功.由于现实环境通常包括多个与环境交互的智能体,多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)获得蓬勃的发展... 深度强化学习(Deep Reinforcement Learning,DRL)在近年受到广泛的关注,并在各种领域取得显著的成功.由于现实环境通常包括多个与环境交互的智能体,多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)获得蓬勃的发展,在各种复杂的序列决策任务上取得优异的表现.本文对多智能体深度强化学习的工作进展进行综述,主要内容分为三个部分.首先,我们回顾了几种常见的多智能体强化学习问题表示及其对应的合作、竞争和混合任务.其次,我们对目前的MADRL方法进行了全新的多维度的分类,并对不同类别的方法展开进一步介绍.其中,我们重点综述值函数分解方法,基于通信的MADRL方法以及基于图神经网络的MADRL方法.最后,我们研究了MADRL方法在现实场景中的主要应用.希望本文能够为即将进入这一快速发展领域的新研究人员和希望获得全方位了解并根据最新进展确定新方向的现有领域专家提供帮助. 展开更多
关键词 多智能体深度强化学习 基于值函数 基于策略 通信学习 图神经网络
下载PDF
基于多智能体深度强化学习的高速公路可变限速协同控制方法
2
作者 余荣杰 徐灵 章锐辞 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第7期1089-1098,共10页
面向高速公路多路段可变限速协同控制需求,针对高维参数空间高效训练寻优难题,提出了应用多智能体深度确定性策略梯度(MADDPG)算法的高速公路可变限速协同控制方法。区别于既有研究的单个智能体深度确定性策略梯度(DDPG)算法,MADDPG将... 面向高速公路多路段可变限速协同控制需求,针对高维参数空间高效训练寻优难题,提出了应用多智能体深度确定性策略梯度(MADDPG)算法的高速公路可变限速协同控制方法。区别于既有研究的单个智能体深度确定性策略梯度(DDPG)算法,MADDPG将每个管控单元抽象为具备Actor-Critic强化学习架构的智能体,在算法训练过程中共享各智能体的状态、动作信息,使得各智能体具备推测其余智能体控制策略的能力,进而实现多路段协同控制。基于开源仿真软件SUMO,在高速公路典型拥堵场景对提出的控制方法开展管控效果验证。实验结果表明,提出的MADDPG算法降低了拥堵持续时间和路段运行速度标准差,分别减少69.23%、47.96%,可显著提高交通效率与安全。对比单智能体DDPG算法,MADDPG可节约50%的训练时间并提高7.44%的累计回报值,多智能体算法可提升协同控制策略的优化效率。进一步,为验证智能体间共享信息的必要性,将MADDPG与独立多智能体DDPG(IDDPG)算法进行对比:相较于IDDPG,MADDPG可使拥堵持续时间、速度标准差均值的改善提升11.65%、19.00%。 展开更多
关键词 交通工程 可变限速协同控制 多智能体深度强化学习 交通拥堵 高速公路 交通效率 交通安全
下载PDF
基于多智能体深度强化学习的车联网资源分配方法 被引量:1
3
作者 孟水仙 刘艳超 王树彬 《无线电工程》 2024年第6期1388-1397,共10页
在车联网中,合理分配频谱资源对满足不同车辆链路业务的服务质量(Quality of Service,QoS)需求具有重要意义。为解决车辆高速移动性和全局状态信息获取困难等问题,提出了一种基于完全分布式多智能体深度强化学习(Multi-Agent Deep Reinf... 在车联网中,合理分配频谱资源对满足不同车辆链路业务的服务质量(Quality of Service,QoS)需求具有重要意义。为解决车辆高速移动性和全局状态信息获取困难等问题,提出了一种基于完全分布式多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)的资源分配算法。该算法在考虑车辆通信延迟和可靠性的情况下,通过优化频谱选择和功率分配策略来实现最大化网络吞吐量。引入共享经验池机制来解决多智能体并发学习导致的非平稳性问题。该算法基于深度Q网络(Deep Q Network,DQN),利用长短期记忆(Long Short Term Memory,LSTM)网络来捕捉和利用动态环境信息,以解决智能体的部分可观测性问题。将卷积神经网络(Convolutional Neural Network,CNN)和残差网络(Residual Network,ResNet)结合增强算法训练的准确性和预测能力。实验结果表明,所提出的算法能够满足车对基础设施(Vehicle-to-Infrastructure,V2I)链路的高吞吐量以及车对车(Vehicle-to-Vehicle,V2V)链路的低延迟要求,并且对环境变化表现出良好的适应性。 展开更多
关键词 车联网 资源分配 多智能体深度强化学习 深度Q网络
下载PDF
计及隐私保护的多智能体深度强化学习有源配电网电压控制策略
4
作者 刘洋 伍双喜 +2 位作者 朱誉 杨苹 孙涛 《智慧电力》 北大核心 2024年第12期104-116,共13页
随着“双碳”目标的推进和我国可再生能源规模的快速增长,配电网电压控制面临新的挑战。针对有源配电网分散式电压控制,提出了一种基于区域间隐私保护的多智能体深度强化学习算法,旨在解决集中训练阶段全局信息传播导致的隐私泄露问题... 随着“双碳”目标的推进和我国可再生能源规模的快速增长,配电网电压控制面临新的挑战。针对有源配电网分散式电压控制,提出了一种基于区域间隐私保护的多智能体深度强化学习算法,旨在解决集中训练阶段全局信息传播导致的隐私泄露问题并提升电压控制性能。首先,基于多智能体深度强化学习的特点,构建了隐私保护下的多智能体协同控制框架;然后,提出了一种结合局部观测与全局目标的分散式强化学习算法,用于优化电压调控设备的协调控制;最后,通过算例验证表明,所提出的方法能够有效提升配电网电压的稳定性与安全性,并在保证隐私的前提下实现高效的电压控制。 展开更多
关键词 电压控制 隐私保护 分散式控制 多智能体深度强化学习
下载PDF
基于值函数分解的多智能体深度强化学习方法研究综述
5
作者 高玉钊 聂一鸣 《计算机科学》 CSCD 北大核心 2024年第S01期22-30,共9页
多智能体深度强化学习方法是深度强化学习方法在多智能体问题上的扩展,其中基于值函数分解的多智能体深度强化学习方法取得了较好的表现效果,是目前研究和应用的热点。文中介绍了基于值函数分解的多智能体深度强化学习方法的主要原理和... 多智能体深度强化学习方法是深度强化学习方法在多智能体问题上的扩展,其中基于值函数分解的多智能体深度强化学习方法取得了较好的表现效果,是目前研究和应用的热点。文中介绍了基于值函数分解的多智能体深度强化学习方法的主要原理和框架;根据近期相关研究,总结出了提高混合网络拟合能力问题、提高收敛效果问题和提高算法可扩展性问题3个研究热点,从算法约束、环境复杂度、神经网络限制等方面分析了3个热点问题产生的原因;根据拟解决的问题和使用的方法对现有研究进行了分类梳理,总结了同类方法的共同点,分析了不同方法的优缺点;对基于值函数分解的多智能体深度强化学习方法在网络节点控制、无人编队控制两个热点领域的应用进行了阐述。 展开更多
关键词 多智能体深度强化学习 值函数分解 拟合能力 收敛效果 可扩展性
下载PDF
基于多智能体深度强化学习的多船协同避碰策略
6
作者 黄仁贤 罗亮 《计算机集成制造系统》 EI CSCD 北大核心 2024年第6期1972-1988,共17页
为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延... 为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延迟确定策略梯度(TD3)算法存在的值估计偏差问题,还在模型训练过程中引入熵正则项,以促进探索和控制随机控制策略,采用自适应噪声对不同阶段的任务进行有效探索,进一步提升了算法的学习效果和稳定性。通过实验验证,所提算法在解决多船协同避碰问题上具有较好的决策效果、更快的收敛速度和更稳定的性能。 展开更多
关键词 多智能体深度强化学习 协同避碰 中心化训练去中心化执行 优先经验回放 多智能Softmax深层双确定性策略梯度
下载PDF
基于多智能体深度强化学习的配电网无功电压控制策略
7
作者 杨一飞 《电气自动化》 2024年第2期40-42,共3页
为满足分布式电源高比例接入配电网对电压控制的需求,提出了一种基于多智能体深度强化学习的配电网无功-电压控制策略。首先,以配电网节点电压偏移最小为优化目标构建数学模型,将每个分布式光伏逆变器建模为一个智能体;然后,通过配电网... 为满足分布式电源高比例接入配电网对电压控制的需求,提出了一种基于多智能体深度强化学习的配电网无功-电压控制策略。首先,以配电网节点电压偏移最小为优化目标构建数学模型,将每个分布式光伏逆变器建模为一个智能体;然后,通过配电网分区把逆变器协同控制问题建为各个子区域的去中心化部分可观测马尔科夫决策过程,采用多智能体双延迟深度确定性策略梯度算法求解实时优化控制策略;最后在IEEE 33节点系统上进行仿真测试。结果表明,所提方法在配电网无功电压控制上具备有效性。 展开更多
关键词 配电网 无功电压控制 分布式电源 多智能体深度强化学习 马尔科夫过程
下载PDF
基于多智能体深度强化学习的实时配电网电压优化控制方法研究
8
作者 周荃 《电器工业》 2024年第5期40-44,共5页
本研究致力于配电网电压优化控制,特别是在动态和不确定性环境中。研究采用多智能体深度强化学习(MADRL)方法,并引入改进型双延迟深度确定性策略梯度(TD3)算法,克服了深度Q网络(DQN)和深度确定性策略梯度(DDPG)在高维问题处理和Q值估计... 本研究致力于配电网电压优化控制,特别是在动态和不确定性环境中。研究采用多智能体深度强化学习(MADRL)方法,并引入改进型双延迟深度确定性策略梯度(TD3)算法,克服了深度Q网络(DQN)和深度确定性策略梯度(DDPG)在高维问题处理和Q值估计中的局限性。通过仿真测试,研究展示了该方法在电压控制和降低网损方面的显著优势,特别在多变电网环境中表现出高效的适应性和鲁棒性。本研究不仅推进了MADRL技术在电力系统中的应用,也为实际电网运行提供了有效的控制策略,增强了电力系统的可靠性和稳定性。 展开更多
关键词 配电网电压控制 多智能体深度强化学习 双延迟深度确定性策略梯度算法 电网鲁棒性
下载PDF
基于多智能体深度强化学习的车联网频谱共享 被引量:1
9
作者 王为念 苏健 +2 位作者 陈勇 张建照 唐震 《电子学报》 EI CAS CSCD 北大核心 2024年第5期1690-1699,共10页
针对高动态车联网环境中基站难以收集和管理瞬时信道状态信息的问题,提出了基于多智能体深度强化学习的车联网频谱分配算法.该算法以车辆通信延迟和可靠性约束条件下最大化网络吞吐量为目标,利用学习算法改进频谱和功率分配策略.首先通... 针对高动态车联网环境中基站难以收集和管理瞬时信道状态信息的问题,提出了基于多智能体深度强化学习的车联网频谱分配算法.该算法以车辆通信延迟和可靠性约束条件下最大化网络吞吐量为目标,利用学习算法改进频谱和功率分配策略.首先通过改进DQN模型和Exp3策略训练隐式协作智能体.其次,利用迟滞性Q学习和并发体验重放轨迹解决多智能体并发学习引起的非平稳性问题.仿真结果表明,该算法有效载荷平均成功交付率可达95.89%,比随机基线算法提高了16.48%,可快速获取近似最优解,在降低车联网通信系统信令开销方面具有显著优势. 展开更多
关键词 车联网 分布式频谱共享 多智能 深度强化学习
下载PDF
基于DQN的多智能体深度强化学习运动规划方法 被引量:4
10
作者 史殿习 彭滢璇 +3 位作者 杨焕焕 欧阳倩滢 张玉晖 郝锋 《计算机科学》 CSCD 北大核心 2024年第2期268-277,共10页
DQN方法作为经典的基于价值的深度强化学习方法,在多智能体运动规划等领域得到了广泛应用。然而,DQN方法面临一系列挑战,例如,DQN会过高估计Q值,计算Q值较为复杂,神经网络没有历史记忆能力,使用ε-greedy策略进行探索效率较低等。针对... DQN方法作为经典的基于价值的深度强化学习方法,在多智能体运动规划等领域得到了广泛应用。然而,DQN方法面临一系列挑战,例如,DQN会过高估计Q值,计算Q值较为复杂,神经网络没有历史记忆能力,使用ε-greedy策略进行探索效率较低等。针对这些问题,提出了一种基于DQN的多智能体深度强化学习运动规划方法,该方法可以帮助智能体学习到高效稳定的运动规划策略,无碰撞地到达目标点。首先,在DQN方法的基础上,提出了基于Dueling的Q值计算优化机制,将Q值的计算方式改进为计算状态值和优势函数值,并根据当前正在更新的Q值网络的参数选择最优动作,使得Q值的计算更加简单准确;其次,提出了基于GRU的记忆机制,引入了GRU模块,使得网络可以捕捉时序信息,具有处理智能体历史信息的能力;最后,提出了基于噪声的有效探索机制,通过引入参数化的噪声,改变了DQN中的探索方式,提高了智能体的探索效率,使得多智能体系统达到探索-利用的平衡状态。在PyBullet仿真平台的6种不同的仿真场景中进行了测试,实验结果表明,所提方法可以使多智能体团队进行高效协作,无碰撞地到达各自目标点,且策略训练过程稳定。 展开更多
关键词 多智能系统 运动规划 深度强化学习 DQN方法
下载PDF
多智能体深度强化学习的图像特征分类方法
11
作者 张泽崴 张建勋 +2 位作者 邹航 李林 南海 《计算机工程与应用》 CSCD 北大核心 2024年第7期222-228,共7页
为解决在图像特征识别分类等机器学习任务中,存在输入图像数据复杂度过高且与部分数据与特征无关的问题,提出了一种多智能体深度强化学习的图像特征分类方法。将图像特征分类任务转化为一个部分可观测的马尔可夫决策过程。通过使用多个... 为解决在图像特征识别分类等机器学习任务中,存在输入图像数据复杂度过高且与部分数据与特征无关的问题,提出了一种多智能体深度强化学习的图像特征分类方法。将图像特征分类任务转化为一个部分可观测的马尔可夫决策过程。通过使用多个移动的同构智能体去收集部分图像信息,并研究智能体如何形成对图像的局部理解并采取行动,以及如何从局部观察的图像中提取相关特征并分类,以此降低数据复杂性和过滤掉不相关数据。通过改进的值函数分解方法训练智能体策略网络,对环境的全局回报按照每个智能体的贡献进行拆分,解决智能体的信度分配问题。该方法在MNIST手写数字数据集和NWPU-RESISC45遥感图像数据集上进行了验证,相比基线算法能够学习到更加有效的联合策略,分类过程拥有更好的稳定性,同时精确率也有提升。 展开更多
关键词 多智能 图像特征分类 深度强化学习 值函数分解
下载PDF
基于多智能体深度强化学习的车联网区分业务资源分配算法
12
作者 蔡玉 官铮 +2 位作者 王增文 王学 杨志军 《计算机工程与科学》 CSCD 北大核心 2024年第10期1757-1764,共8页
车联网产生大量网络连接和差异化数据,针对单个智能体难以在动态场景下收集信道状态信息并进行区分业务的资源分配和链路调度,提出了基于多智能体深度强化学习的车联网区分业务资源分配算法。该算法以实现紧急业务链路干扰最小化约束下,... 车联网产生大量网络连接和差异化数据,针对单个智能体难以在动态场景下收集信道状态信息并进行区分业务的资源分配和链路调度,提出了基于多智能体深度强化学习的车联网区分业务资源分配算法。该算法以实现紧急业务链路干扰最小化约束下,V2V链路数据包成功交付率和V2I链路总容量最大化为目标,利用深度强化学习算法进行多个蜂窝用户和设备到设备用户共存的单天线车载网络中,频谱分配和功率选择的策略优化。每个智能体都利用DQN进行训练,智能体间共同与通信环境交互,通过全局奖励函数实现智能体间的协作。仿真结果表明,高负载场景下,相较于传统随机分配算法,该算法的V2I链路总吞吐量增加了3.76Mbps,V2V链路的数据包交付率提高了17.1%,紧急业务链路所受干扰相对于普通链路减少1.42dB,实现紧急业务链路的优先级保障,有效提高了V2I链路和V2V链路的总传输容量。 展开更多
关键词 车联网 频谱分配 强化学习 多智能 紧急业务
下载PDF
基于多智能体深度强化学习的解耦控制方法
13
作者 肖钟毓 夏钟升 +1 位作者 洪文晶 师佳 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期570-582,共13页
[目的]在现代工业生产过程中,实现复杂非线性多输入多输出系统的解耦控制对于生产过程的操作和优化都具有至关重要的意义.[方法]本文基于多智能体深度确定性策略梯度(MADDPG)算法,提出了一种解决复杂非线性多输入多输出系统解耦控制问... [目的]在现代工业生产过程中,实现复杂非线性多输入多输出系统的解耦控制对于生产过程的操作和优化都具有至关重要的意义.[方法]本文基于多智能体深度确定性策略梯度(MADDPG)算法,提出了一种解决复杂非线性多输入多输出系统解耦控制问题的设计方案,并通过连续搅拌反应过程的解耦控制仿真计算,验证了设计方案的有效性.[结果]验证结果表明:本文所提出的方案能够同时对连续搅拌反应过程中反应温度、产物摩尔流量两个被控量的设定控制目标进行跟踪调节,且在同样的控制目标下,该设计方案比单智能体方案和PID(proportional-integral-derivative control)控制方案都具有更好的稳定性与更小的稳态控制误差.[结论]仿真结果表明:针对复杂非线性多输入多输出系统的解耦控制问题,多智能体强化学习算法能够在不依赖于过程模型的基础上,实现复杂非线性多输入多输出系统的解耦控制,并保证较好的控制性能. 展开更多
关键词 多智能强化学习 解耦控制 深度确定性策略梯度 连续搅拌反应器 非线性多输入多输出系统
下载PDF
基于多智能体深度强化学习的多星观测任务分配方法
14
作者 王桢朗 何慧群 +1 位作者 周军 金云飞 《上海航天(中英文)》 CSCD 2024年第1期108-115,共8页
为应对多星环境中复杂多约束条件下的任务分配场景,提出一种多星自主决策观测任务分配算法,该算法采用基于集中式训练、分布式执行的多智能体深度强化学习算法。通过这种方式训练后的卫星智能体,即使在没有中心决策节点或通信受限的情况... 为应对多星环境中复杂多约束条件下的任务分配场景,提出一种多星自主决策观测任务分配算法,该算法采用基于集中式训练、分布式执行的多智能体深度强化学习算法。通过这种方式训练后的卫星智能体,即使在没有中心决策节点或通信受限的情况下,仍具有一定的自主协同能力及独立实现多星观测任务的高效分配能力。 展开更多
关键词 多智能系统 深度强化学习 多星系统 多智能深度确定性策略梯度算法 任务规划
下载PDF
基于多智能体深度强化学习的无人艇集群博弈对抗研究
15
作者 于长东 刘新阳 +2 位作者 陈聪 刘殿勇 梁霄 《水下无人系统学报》 2024年第1期79-86,共8页
基于未来现代化海上作战背景,提出了利用多智能体深度强化学习方案来完成无人艇群博弈对抗中的协同围捕任务。首先,根据不同的作战模式和应用场景,提出基于分布式执行的多智能体深度确定性策略梯度算法,并对其原理进行了介绍;其次,模拟... 基于未来现代化海上作战背景,提出了利用多智能体深度强化学习方案来完成无人艇群博弈对抗中的协同围捕任务。首先,根据不同的作战模式和应用场景,提出基于分布式执行的多智能体深度确定性策略梯度算法,并对其原理进行了介绍;其次,模拟具体作战场景平台,设计多智能体网络模型、奖励函数机制以及训练策略。实验结果表明,文中方法可以有效应对敌方无人艇的协同围捕决策问题,在不同作战场景下具有较高的效率,为未来复杂作战场景下无人艇智能决策研究提供理论参考价值。 展开更多
关键词 无人艇集群 多智能深度确定性策略梯度算法 深度强化学习 智能决策 博弈对抗
下载PDF
基于多智能体深度强化学习的地区电网群体协同优化调度策略
16
作者 陆亚楠 杨胜春 +3 位作者 李亚平 姚建国 高冠中 毛文博 《电力信息与通信技术》 2024年第4期1-10,共10页
充分发挥可调控资源群体的调控特性可以极大提升地区电网动态调节能力。为此,文章提出一种面向可调控资源群体的协同优化调度方法,并利用多智能体深度强化学习技术求解多群体复杂协同问题。首先,对考虑多可调控资源群体的地区电网优化... 充分发挥可调控资源群体的调控特性可以极大提升地区电网动态调节能力。为此,文章提出一种面向可调控资源群体的协同优化调度方法,并利用多智能体深度强化学习技术求解多群体复杂协同问题。首先,对考虑多可调控资源群体的地区电网优化调度问题进行建模,设定电网优化目标及系统安全运行约束等条件;其次,阐述多智能体深度确定性策略梯度算法基本原理;然后,利用策略梯度更新算法,进行“集中训练-分散执行”寻求可调控资源群体协同最优调度策略,并定义相应评价指标分别测试智能体的离线训练效果和在线应用效果;最后,基于改进的IEEE测试系统,验证所提方法的有效性。 展开更多
关键词 多智能 数据驱动 深度强化学习 优化调度 可调控资源群
下载PDF
多智能体深度强化学习机制的巡游出租车调度策略优化
17
作者 马祥元 《测绘学报》 EI CSCD 北大核心 2024年第4期778-778,共1页
交通领域传统线性规划方法仅在静态网络中求解有限规模的资源调度问题。论文将动态交通网络中表征乘客和驾驶员出行行为下的时空变化特征、状态属性特征和交互关系特征等领域知识转换映射为包含状态、行为、转移概率和奖励函数等元组的... 交通领域传统线性规划方法仅在静态网络中求解有限规模的资源调度问题。论文将动态交通网络中表征乘客和驾驶员出行行为下的时空变化特征、状态属性特征和交互关系特征等领域知识转换映射为包含状态、行为、转移概率和奖励函数等元组的马尔可夫过程,基于序贯决策思想在强化学习框架内的多智能体合作型随机博弈场景下,求解多对象司乘匹配和车辆行为选择策略优化任务的组合动态优化问题。论文主要研究内容如下。 展开更多
关键词 马尔可夫过程 属性特征 深度强化学习 多智能 动态交通网络 线性规划方法 序贯决策 转移概率
下载PDF
聚类与信息共享的多智能体深度强化学习协同控制交通灯
18
作者 杜同春 王波 +2 位作者 程浩然 罗乐 曾能民 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第2期538-545,共8页
该文提出一种适用于多路口交通灯实时控制的多智能体深度循环Q-网络(MADRQN),目的是提高多个路口的联合控制效果。该方法将交通灯控制建模成马尔可夫决策过程,将每个路口的控制器作为智能体,根据位置和观测信息对智能体聚类,然后在聚类... 该文提出一种适用于多路口交通灯实时控制的多智能体深度循环Q-网络(MADRQN),目的是提高多个路口的联合控制效果。该方法将交通灯控制建模成马尔可夫决策过程,将每个路口的控制器作为智能体,根据位置和观测信息对智能体聚类,然后在聚类内部进行信息共享和中心化训练,并在每个训练过程结束时将评价值最高的值函数网络参数分享给其它智能体。在城市交通仿真软件(SUMO)下的仿真实验结果表明,所提方法能够减少通信的数据量,使得智能体之间的信息共享和中心化训练更加可行和高效,车辆平均等待时长少于当前最优的基于多智能体深度强化学习的交通灯控制方法,能够有效地缓解交通拥堵。 展开更多
关键词 交通信号灯协同控制 集中训练分散执行 强化学习智能聚类 生长型神经气 深度循环Q网络
下载PDF
基于多智能体深度强化学习的无人机动态预部署策略 被引量:4
19
作者 唐伦 李质萱 +2 位作者 蒲昊 汪智平 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2023年第6期2007-2015,共9页
针对传统优化算法在求解长时间尺度内通信无人机(UAV)动态部署时复杂度过高且难以与动态环境信息匹配等缺陷,该文提出一种基于多智能体深度强化学习(MADRL)的UAV动态预部署策略。首先利用一种深度时空网络模型预测用户的预期速率需求以... 针对传统优化算法在求解长时间尺度内通信无人机(UAV)动态部署时复杂度过高且难以与动态环境信息匹配等缺陷,该文提出一种基于多智能体深度强化学习(MADRL)的UAV动态预部署策略。首先利用一种深度时空网络模型预测用户的预期速率需求以捕捉动态环境信息,定义用户满意度的概念以刻画用户所获得UAV提供服务的公平性,并以最大化长期总体用户满意度和最小化UAV移动及发射能耗为目标建立优化模型。其次,将上述模型转化为部分可观测马尔科夫博弈过程(POMG),并提出一种基于MADRL的H-MADDPG算法求解该POMG中轨迹规划、用户关联和功率分配的最佳决策。该H-MADDPG算法使用混合网络结构以实现对多模态输入的特征提取,并采用集中式训练-分布式执行的机制以高效地训练和执行决策。最后仿真结果证明了所提算法的有效性。 展开更多
关键词 无人机通信 动态部署 部分可观测马尔科夫博弈 多智能体深度强化学习
下载PDF
基于多智能体深度强化学习的分布式干扰协调 被引量:4
20
作者 刘婷婷 罗义南 杨晨阳 《通信学报》 EI CSCD 北大核心 2020年第7期38-48,共11页
针对干扰网络中的文件下载业务,提出了一种基于多智能体深度强化学习的分布式干扰协调策略。所提策略能够在节点之间只需交互少量信息的条件下,根据干扰环境和业务需求的特点自适应调整传输策略。仿真结果表明,对于任意的用户数和业务需... 针对干扰网络中的文件下载业务,提出了一种基于多智能体深度强化学习的分布式干扰协调策略。所提策略能够在节点之间只需交互少量信息的条件下,根据干扰环境和业务需求的特点自适应调整传输策略。仿真结果表明,对于任意的用户数和业务需求,所提策略相对于未来信息预测理想时最优策略的用户满意度损失不超过11%。 展开更多
关键词 多智能体深度强化学习 非实时业务 分布式干扰协调 超密集网络
下载PDF
上一页 1 2 53 下一页 到第
使用帮助 返回顶部