期刊文献+
共找到351篇文章
< 1 2 18 >
每页显示 20 50 100
多智能体深度强化学习研究进展
1
作者 丁世飞 杜威 +2 位作者 张健 郭丽丽 丁玲 《计算机学报》 EI CAS CSCD 北大核心 2024年第7期1547-1567,共21页
深度强化学习(Deep Reinforcement Learning,DRL)在近年受到广泛的关注,并在各种领域取得显著的成功.由于现实环境通常包括多个与环境交互的智能体,多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)获得蓬勃的发展... 深度强化学习(Deep Reinforcement Learning,DRL)在近年受到广泛的关注,并在各种领域取得显著的成功.由于现实环境通常包括多个与环境交互的智能体,多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)获得蓬勃的发展,在各种复杂的序列决策任务上取得优异的表现.本文对多智能体深度强化学习的工作进展进行综述,主要内容分为三个部分.首先,我们回顾了几种常见的多智能体强化学习问题表示及其对应的合作、竞争和混合任务.其次,我们对目前的MADRL方法进行了全新的多维度的分类,并对不同类别的方法展开进一步介绍.其中,我们重点综述值函数分解方法,基于通信的MADRL方法以及基于图神经网络的MADRL方法.最后,我们研究了MADRL方法在现实场景中的主要应用.希望本文能够为即将进入这一快速发展领域的新研究人员和希望获得全方位了解并根据最新进展确定新方向的现有领域专家提供帮助. 展开更多
关键词 多智能深度强化学习 基于值函数 基于策略 通信学习 图神经网络
下载PDF
基于单/多智能体简化强化学习的电力系统无功电压控制 被引量:2
2
作者 马庆 邓长虹 《电工技术学报》 EI CSCD 北大核心 2024年第5期1300-1312,共13页
为了快速平抑分布式能源接入系统产生的无功电压波动,以强化学习、模仿学习为代表的机器学习方法逐渐被应用于无功电压控制。虽然现有方法能实现在线极速求解,但仍然存在离线训练速度慢、普适性不够等阻碍其应用于实际的缺陷。该文首先... 为了快速平抑分布式能源接入系统产生的无功电压波动,以强化学习、模仿学习为代表的机器学习方法逐渐被应用于无功电压控制。虽然现有方法能实现在线极速求解,但仍然存在离线训练速度慢、普适性不够等阻碍其应用于实际的缺陷。该文首先提出一种适用于输电网集中式控制的单智能体简化强化学习方法,该方法基于“Actor-Critic”架构对强化学习进行简化与改进,保留了强化学习无需标签数据与强普适性的优点,同时消除了训练初期因智能体随机搜索造成的计算浪费,大幅提升了强化学习的训练速度;然后,提出一种适用于配电网分布式零通信控制的多智能体简化强化学习方法,该方法将简化强化学习思想推广形成多智能体版本,同时采用模仿学习进行初始化,将全局优化思想提前注入各智能体,提升各无功设备之间的就地协同控制效果;最后,基于改进IEEE 118节点算例的仿真结果验证了所提方法的正确性与快速性。 展开更多
关键词 无功电压控制 集中式控制 单智能简化强化学习 分布式控制 多智能简化强化学习
下载PDF
基于多智能体深度强化学习的高速公路可变限速协同控制方法
3
作者 余荣杰 徐灵 章锐辞 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第7期1089-1098,共10页
面向高速公路多路段可变限速协同控制需求,针对高维参数空间高效训练寻优难题,提出了应用多智能体深度确定性策略梯度(MADDPG)算法的高速公路可变限速协同控制方法。区别于既有研究的单个智能体深度确定性策略梯度(DDPG)算法,MADDPG将... 面向高速公路多路段可变限速协同控制需求,针对高维参数空间高效训练寻优难题,提出了应用多智能体深度确定性策略梯度(MADDPG)算法的高速公路可变限速协同控制方法。区别于既有研究的单个智能体深度确定性策略梯度(DDPG)算法,MADDPG将每个管控单元抽象为具备Actor-Critic强化学习架构的智能体,在算法训练过程中共享各智能体的状态、动作信息,使得各智能体具备推测其余智能体控制策略的能力,进而实现多路段协同控制。基于开源仿真软件SUMO,在高速公路典型拥堵场景对提出的控制方法开展管控效果验证。实验结果表明,提出的MADDPG算法降低了拥堵持续时间和路段运行速度标准差,分别减少69.23%、47.96%,可显著提高交通效率与安全。对比单智能体DDPG算法,MADDPG可节约50%的训练时间并提高7.44%的累计回报值,多智能体算法可提升协同控制策略的优化效率。进一步,为验证智能体间共享信息的必要性,将MADDPG与独立多智能体DDPG(IDDPG)算法进行对比:相较于IDDPG,MADDPG可使拥堵持续时间、速度标准差均值的改善提升11.65%、19.00%。 展开更多
关键词 交通工程 可变限速协同控制 多智能深度强化学习 交通拥堵 高速公路 交通效率 交通安全
下载PDF
高校未来学习中心建设探索与实践——以中国海洋大学学习综合体建设为例
4
作者 李靓 解登峰 王栋 《社会科学前沿》 2024年第9期114-122,共9页
[目的/意义]未来学习中心是教育部提出的一种面向未来的智慧学习空间建设思路。未来学习中心的建设已成为高校教育改革的重要方向和任务,它不仅是一种面向未来的全新教育模式,更是高校图书馆建设的新形态。[方法/过程]文章以中国海洋大... [目的/意义]未来学习中心是教育部提出的一种面向未来的智慧学习空间建设思路。未来学习中心的建设已成为高校教育改革的重要方向和任务,它不仅是一种面向未来的全新教育模式,更是高校图书馆建设的新形态。[方法/过程]文章以中国海洋大学学习综合体建设实践为例,阐述其建设背景、设计方案、特色服务及建设成效,[结果/结论]以期为高校图书馆学习中心建设提供借鉴与参考。[Purpose/Significance] The Future Learning Center is a future-oriented intelligent learning space construction idea put forward by the Ministry of Education. The construction of future learning center has become an important direction and task in the reform of university education, which is not only a new education model facing the future, but also a new form of university library construction. [Method/Process] Taking the construction practice of learning complex in Ocean University of China as an example, this paper expounds its construction background, design scheme, characteristic service and construction effect. [Result/Conclusion] In order to provide reference for the construction of university library learning center. 展开更多
关键词 学习中心 高校图书馆 空间建设 学习综合
下载PDF
多智能体博弈学习研究进展 被引量:1
5
作者 罗俊仁 张万鹏 +2 位作者 苏炯铭 袁唯淋 陈璟 《系统工程与电子技术》 EI CSCD 北大核心 2024年第5期1628-1655,共28页
随着深度学习和强化学习而来的人工智能新浪潮,为智能体从感知输入到行动决策输出提供了“端到端”解决方案。多智能体学习是研究智能博弈对抗的前沿课题,面临着对抗性环境、非平稳对手、不完全信息和不确定行动等诸多难题与挑战。本文... 随着深度学习和强化学习而来的人工智能新浪潮,为智能体从感知输入到行动决策输出提供了“端到端”解决方案。多智能体学习是研究智能博弈对抗的前沿课题,面临着对抗性环境、非平稳对手、不完全信息和不确定行动等诸多难题与挑战。本文从博弈论视角入手,首先给出了多智能体学习系统组成,进行了多智能体学习概述,简要介绍了各类多智能体学习研究方法。其次,围绕多智能体博弈学习框架,介绍了多智能体博弈基础模型及元博弈模型,均衡解概念和博弈动力学,学习目标多样、环境(对手)非平稳、均衡难解且易变等挑战。再次,全面梳理了多智能体博弈策略学习方法,离线博弈策略学习方法,在线博弈策略学习方法。最后,从智能体认知行为建模与协同、通用博弈策略学习方法和分布式博弈策略学习框架共3个方面探讨了多智能体学习的前沿研究方向。 展开更多
关键词 博弈学习 多智能学习 元博弈 在线无悔学习
下载PDF
多智能体强化学习方法综述 被引量:2
6
作者 陈人龙 陈嘉礼 +1 位作者 李善琦 谭营 《信息对抗技术》 2024年第1期18-32,共15页
在自动驾驶、团队配合游戏等现实场景的序列决策问题中,多智能体强化学习表现出了优秀的潜力。然而,多智能体强化学习面临着维度灾难、不稳定性、多目标性和部分可观测性等挑战。为此,概述了多智能体强化学习的概念与方法,并整理了当前... 在自动驾驶、团队配合游戏等现实场景的序列决策问题中,多智能体强化学习表现出了优秀的潜力。然而,多智能体强化学习面临着维度灾难、不稳定性、多目标性和部分可观测性等挑战。为此,概述了多智能体强化学习的概念与方法,并整理了当前研究的主要趋势和研究方向。研究趋势包括CTDE范式、具有循环神经单元的智能体和训练技巧。主要研究方向涵盖混合型学习方法、协同与竞争学习、通信与知识共享、适应性与鲁棒性、分层与模块化学习、基于博弈论的方法以及可解释性。未来的研究方向包括解决维度灾难问题、求解大型组合优化问题和分析多智能体强化学习算法的全局收敛性。这些研究方向将推动多智能体强化学习在实际应用中取得更大的突破。 展开更多
关键词 多智能强化学习 强化学习 多智能系统 协同 维度灾难
下载PDF
基于值分布的多智能体强化学习方法
7
作者 韩明志 李宁 王超 《计算机科学与应用》 2024年第4期201-212,共12页
近年来,多智能体强化学习随着深度学习技术的发展和算法研究的深入,成为人工智能领域的研究热点。特别是在处理复杂的决策问题和环境中,多智能体系统展现出其独特的优势。本文介绍了一种基于值分布的多智能体强化学习算法,旨在通过改进... 近年来,多智能体强化学习随着深度学习技术的发展和算法研究的深入,成为人工智能领域的研究热点。特别是在处理复杂的决策问题和环境中,多智能体系统展现出其独特的优势。本文介绍了一种基于值分布的多智能体强化学习算法,旨在通过改进算法结构和学习机制,提升多智能体协作中的性能和稳定性。首先,本文深入分析了强化学习中的值分布概念,并探讨了其在多智能体系统中的应用挑战和潜在价值。随后,提出了CvM-MIX算法,该算法通过结合值分布强化学习和值分解技术,有效地提高了对环境随机性的适应能力,并采用了一种改进的基于权重优先级的经验回放机制,进一步优化了学习过程。通过在星际争霸II多智能体挑战赛(SMAC)平台进行的一系列实验,验证了CvM-MIX算法相较于传统算法在性能和稳定性上的优势。实验结果显示,CvM-MIX算法在多种对抗模式下均表现出更快的收敛速度和更高的胜率,尤其是在复杂场景中的表现尤为突出。 展开更多
关键词 深度强化学习 多智能强化学习 值分布
下载PDF
基于智能规划的多智能体强化学习算法
8
作者 辛沅霞 华道阳 张犁 《计算机科学》 CSCD 北大核心 2024年第5期179-192,共14页
目前深度强化学习算法在不同应用领域中已经取得诸多成果,然而在多智能体任务领域中,往往面临大规模的具有稀疏奖励的非稳态环境,低探索效率问题仍是一大挑战。由于智能规划能够根据任务的初始状态和目标状态快速制定出决策方案,该方案... 目前深度强化学习算法在不同应用领域中已经取得诸多成果,然而在多智能体任务领域中,往往面临大规模的具有稀疏奖励的非稳态环境,低探索效率问题仍是一大挑战。由于智能规划能够根据任务的初始状态和目标状态快速制定出决策方案,该方案能够作为各智能体的初始策略,并为其探索过程提供有效指导,因此尝试将智能规划与多智能体强化学习进行结合求解,并且提出统一模型UniMP(a Unified model for Multi-agent Reinforcement Learning and AI Planning)。在此基础上,设计并建立相应的问题求解机制。首先,将多智能体强化学习任务转化为智能决策任务;其次,对其执行启发式搜索,以得到一组宏观目标,进而指导强化学习的训练,使得各智能体能够进行更加高效的探索。在多智能体即时战略对抗场景StarCraftⅡ的各地图以及RMAICS战车模拟对战环境下进行实验,结果表明累计奖励值和胜率均有显著提升,从而验证了统一模型的可行性、求解机制的有效性以及所提算法灵活应对强化学习环境突发情况的能力。 展开更多
关键词 多智能强化学习 智能规划 启发式搜索 探索效率
下载PDF
深空探测器多智能体强化学习自主任务规划
9
作者 孙泽翼 王彬 +2 位作者 胡馨月 熊新 金怀平 《深空探测学报(中英文)》 CSCD 北大核心 2024年第3期244-255,共12页
针对深空探测器执行附着任务时各子系统协同规划自主性、快速性和自适应性的要求,提出一种基于近端策略优化方法的多智能体强化学习协同规划,将单智能体近端策略优化算法与多智能体混合式协作机制相融合,设计了一种多智能体自主任务规... 针对深空探测器执行附着任务时各子系统协同规划自主性、快速性和自适应性的要求,提出一种基于近端策略优化方法的多智能体强化学习协同规划,将单智能体近端策略优化算法与多智能体混合式协作机制相融合,设计了一种多智能体自主任务规划模型,并引入噪声正则化优势值解决多智能体集中训练中协同策略过拟合的问题。仿真结果表明,多智能体强化学习自主任务规划方法能根据实时环境变化,对智能自主优化小天体附着任务的协作策略适时调整,与改进前的算法相比提高了任务规划成功率和规划解的质量,缩短了任务规划的时间。 展开更多
关键词 多智能强化学习 深空探测自主任务规划 近端策略优化 小天附着
下载PDF
基于价值函数分解和通信学习机制的异构多智能体强化学习方法
10
作者 杜威 丁世飞 +2 位作者 郭丽丽 张健 丁玲 《计算机学报》 EI CAS CSCD 北大核心 2024年第6期1304-1322,共19页
许多现实世界的系统可以被建模为多智能体系统,多智能体强化学习为开发这些系统提供了一种有效的方法,其中基于集中训练与分散执行范式的价值函数分解方法得到了广泛的研究.然而现有的价值分解方法一般缺乏通信机制,在处理需要通信学习... 许多现实世界的系统可以被建模为多智能体系统,多智能体强化学习为开发这些系统提供了一种有效的方法,其中基于集中训练与分散执行范式的价值函数分解方法得到了广泛的研究.然而现有的价值分解方法一般缺乏通信机制,在处理需要通信学习的多智能体任务时表现不佳.同时,目前大多数通信机制都是针对同构多智能体环境设计的,没有考虑异构多智能体场景.在异构场景中,由于智能体动作空间或观测空间的异构性,智能体之间的信息共享并不直接.如果不能对智能体的异构性进行有效地建模处理,通信机制将变得无效,甚至会影响多智能体的协作性能.为了应对这些挑战,本文提出一个融合价值函数分解和通信学习机制的异构多智能体强化学习框架.具体地:(1)与采用同构图卷积网络的方法不同,该框架利用异构图卷积网络融合智能体的异构特征信息得到有效的嵌入;(2)利用通信学习模块获得的嵌入信息和局部观测历史计算每个智能体的动作价值,以选择和协调智能体的动作;(3)通过设计的互信息损失函数和价值函数分解模块的损失函数联合训练,能够有效地训练整个方法.本文首先在两个异构多智能体平台上进行实验,实验结果表明该方法能学到比基线方法更有效的策略,在两个平台上相比基线方法分别提高了 13%的平均奖励值和24%的平均胜率.此外,在交通信号控制场景中验证了该方法在现实系统中的可行性. 展开更多
关键词 价值函数分解 异构多智能强化学习 通信机制 图神经网络 互信息 交通信号控制
下载PDF
多智能体强化学习算法研究综述
11
作者 李明阳 许可儿 +2 位作者 宋志强 夏庆锋 周鹏 《计算机科学与探索》 CSCD 北大核心 2024年第8期1979-1997,共19页
近年来,多智能体强化学习算法技术已广泛应用于人工智能领域。系统性地分析了多智能体强化学习算法,审视了其在多智能体系统中的应用与进展,并深入调研了相关研究成果。介绍了多智能体强化学习的研究背景和发展历程,并总结了已有的相关... 近年来,多智能体强化学习算法技术已广泛应用于人工智能领域。系统性地分析了多智能体强化学习算法,审视了其在多智能体系统中的应用与进展,并深入调研了相关研究成果。介绍了多智能体强化学习的研究背景和发展历程,并总结了已有的相关研究成果;简要回顾了传统强化学习算法在不同任务下的应用情况;重点强调多智能体强化学习算法分类,并根据三种主要的任务类型(路径规划、追逃博弈、任务分配)对其在多智能体系统中的应用、挑战以及解决方案进行了细致的梳理与分析;调研了多智能体领域中现有的算法训练环境,总结了深度学习对多智能体强化学习算法的改进作用,提出该领域所面临的挑战并展望了未来的研究方向。 展开更多
关键词 智能 强化学习 多智能强化学习 多智能系统
下载PDF
基于观测重构的多智能体强化学习方法 被引量:1
12
作者 史殿习 胡浩萌 +4 位作者 宋林娜 杨焕焕 欧阳倩滢 谭杰夫 陈莹 《计算机科学》 CSCD 北大核心 2024年第4期280-290,共11页
共同知识是多智能体系统内众所周知的知识集。如何充分利用共同知识进行策略学习,是多智能体独立学习系统中的一个挑战性问题。针对这一问题,围绕共同知识提取和独立学习网络设计,提出了一种基于观测重构的多智能体强化学习方法IPPO-CKO... 共同知识是多智能体系统内众所周知的知识集。如何充分利用共同知识进行策略学习,是多智能体独立学习系统中的一个挑战性问题。针对这一问题,围绕共同知识提取和独立学习网络设计,提出了一种基于观测重构的多智能体强化学习方法IPPO-CKOR。首先,对智能体的观测信息进行共同知识特征的计算与融合,得到融合共同知识特征的观测信息;其次,采用基于共同知识的智能体选择算法,选择关系密切的智能体,并使用重构特征生成机制构建它们的特征信息,其与融合共同知识特征的观测信息组成重构观测信息,用于智能体策略的学习与执行;最后,设计了一个基于观测重构的独立学习网络,使用多头自注意力机制对重构观测信息进行处理,使用一维卷积和GRU层处理观测信息序列,使得智能体能够从观测信息序列中提取出更有效的特征,有效缓解了环境非平稳与部分可观测问题带来的影响。实验结果表明,相较于现有典型的采用独立学习的多智能体强化学习方法,所提方法在性能上有显著提升。 展开更多
关键词 观测重构 多智能协作策略 多智能强化学习 独立学习
下载PDF
基于多智能体强化学习的重载运输车队队列控制
13
作者 张海龙 赵永娟 +1 位作者 张鹏飞 董瀚萱 《兵器装备工程学报》 CAS CSCD 北大核心 2024年第8期45-50,66,共7页
重载运输队列作为现代战争战备物资高效运输方式,有效提升运输能力并降低运输成本。现有队列控制主要关注运动控制特征,忽略了重载特种车辆自身驱动系统构型下系统动力响应特性。基于此,提出了基于多智能体强化学习的重载运输车队队列... 重载运输队列作为现代战争战备物资高效运输方式,有效提升运输能力并降低运输成本。现有队列控制主要关注运动控制特征,忽略了重载特种车辆自身驱动系统构型下系统动力响应特性。基于此,提出了基于多智能体强化学习的重载运输车队队列控制策略,通过控制策略自主式参数优化实现重载队列协同控制,搭建了融合长短时记忆网络的柔性动力需求引导方法,将长期规划策略与短期控制策略解耦,并分别在双层马尔科夫链迭代,建立动力总成元件工况柔性调节控制方法。标准工况试验结果表明:所提出的队列控制策略使队列行驶过程中车头时距保持在1.2 s,动力电池荷电状态维持在35%~65%,并使发动机工作在高效经济区间内,有效提升了重载运输队列的稳定性、耐久性与燃油经济性。 展开更多
关键词 队列控制 重载特种车辆 多智能强化学习 长短时记忆网络 混合动力系统
下载PDF
稀疏异质多智能体环境下基于强化学习的课程学习框架
14
作者 罗睿卿 曾坤 张欣景 《计算机科学》 CSCD 北大核心 2024年第1期301-309,共9页
现代战争的战场较大且兵种较多,利用多智能体强化学习(MARL)进行战场推演可以加强作战单位之间的协同决策能力,从而提升战斗力。当前MARL在兵棋推演研究和对抗演练中的应用普遍存在两个简化:各个智能体的同质化以及作战单位分布稠密。... 现代战争的战场较大且兵种较多,利用多智能体强化学习(MARL)进行战场推演可以加强作战单位之间的协同决策能力,从而提升战斗力。当前MARL在兵棋推演研究和对抗演练中的应用普遍存在两个简化:各个智能体的同质化以及作战单位分布稠密。实际战争场景中并不总是满足这两个设定,可能包含多种异质的智能体以及作战单位分布稀疏。为了探索强化学习在更多场景中的应用,分别就这两方面进行改进研究。首先,设计并实现了多尺度多智能体抢滩登陆环境M2ALE,M2ALE针对上述两个简化设定做了针对性的复杂化,添加了多种异质智能体和作战单位分布稀疏的场景,这两种复杂化设定加剧了多智能体环境的探索困难问题和非平稳性,使用常用的多智能体算法通常难以训练。其次,提出了一种异质多智能体课程学习框架HMACL,用于应对M2ALE环境的难点。HMACL包括3个模块:1)任务生成模块(STG),用于生成源任务以引导智能体训练;2)种类策略提升模块(CPI),针对多智能体系统本身的非平稳性,提出了一种基于智能体种类的参数共享(Class Based Parameter Sharing)策略,实现了异质智能体系统中的参数共享;3)训练模块(Trainer),通过从STG获取源任务,从CPI获取最新的策略,使用任意MARL算法训练当前的最新策略。HMACL可以缓解常用MARL算法在M2ALE环境中的探索难问题和非平稳性问题,引导多智能体系统在M2ALE环境中的学习过程。实验结果表明,使用HMACL使得MARL算法在M2ALE环境下的采样效率和最终性能得到大幅度的提升。 展开更多
关键词 多智能强化学习 作战仿真 课程学习 参数共享 多智能环境设计
下载PDF
基于多智能体强化学习的目标跟踪辐射方法及设计
15
作者 陈翰 张远媛 +2 位作者 何聪 朱城磊 张为 《电子器件》 CAS 2024年第2期544-551,共8页
针对分布式空间功率合成中单平台微波发射装置有最大发射功率限制的问题,提出了一种基于Friend-Q多智能强化学习的微波发射装置路径规划方法,以实现对目标施加持续4 min及以上的10 mW/cm^(2)~15 mW/cm^(2)的辐射强度。在所提方法中通过... 针对分布式空间功率合成中单平台微波发射装置有最大发射功率限制的问题,提出了一种基于Friend-Q多智能强化学习的微波发射装置路径规划方法,以实现对目标施加持续4 min及以上的10 mW/cm^(2)~15 mW/cm^(2)的辐射强度。在所提方法中通过变ε-贪婪策略平衡探索和利用的关系,同时提出一种具有选择性的输入功率方案,以减少系统耗能。通过对三种具有代表性的仿真场景进行训练,实验结果表明:(1)相比于分散远离场景和单一接近场景,路径结合场景的成功率分别提高了55.7%和120.9%,证实了微波辐射源的合理位置排布可以在很大程度上提高模型的成功率;(2)采用多智能体强化学习训练的模型相比于采用随机策略的模型,三种仿真场景中的成功率分别提高了48.8%、72%、41.8%,进一步验证了该算法的有效性。 展开更多
关键词 多智能强化学习 分布式空间功率合成 跟踪辐射 路径规划
下载PDF
基于多智能体深度强化学习的解耦控制方法
16
作者 肖钟毓 夏钟升 +1 位作者 洪文晶 师佳 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期570-582,共13页
[目的]在现代工业生产过程中,实现复杂非线性多输入多输出系统的解耦控制对于生产过程的操作和优化都具有至关重要的意义.[方法]本文基于多智能体深度确定性策略梯度(MADDPG)算法,提出了一种解决复杂非线性多输入多输出系统解耦控制问... [目的]在现代工业生产过程中,实现复杂非线性多输入多输出系统的解耦控制对于生产过程的操作和优化都具有至关重要的意义.[方法]本文基于多智能体深度确定性策略梯度(MADDPG)算法,提出了一种解决复杂非线性多输入多输出系统解耦控制问题的设计方案,并通过连续搅拌反应过程的解耦控制仿真计算,验证了设计方案的有效性.[结果]验证结果表明:本文所提出的方案能够同时对连续搅拌反应过程中反应温度、产物摩尔流量两个被控量的设定控制目标进行跟踪调节,且在同样的控制目标下,该设计方案比单智能体方案和PID(proportional-integral-derivative control)控制方案都具有更好的稳定性与更小的稳态控制误差.[结论]仿真结果表明:针对复杂非线性多输入多输出系统的解耦控制问题,多智能体强化学习算法能够在不依赖于过程模型的基础上,实现复杂非线性多输入多输出系统的解耦控制,并保证较好的控制性能. 展开更多
关键词 多智能强化学习 解耦控制 深度确定性策略梯度 连续搅拌反应器 非线性多输入多输出系统
下载PDF
面向任务卸载的鲁棒多智能体联邦强化学习
17
作者 严地宝 文红 +3 位作者 侯文静 王永丰 马文迪 孙凡 《通信技术》 2024年第8期850-854,共5页
随着各种移动智能终端的普及,边缘计算和计算卸载技术为这些智能终端提供算力支持来提升终端设备的服务质量。为了使边缘计算设备能够学习多种复杂任务卸载场景下的任务卸载策略,提出了一种基于多智能体深度强化学习算法的联邦学习策略... 随着各种移动智能终端的普及,边缘计算和计算卸载技术为这些智能终端提供算力支持来提升终端设备的服务质量。为了使边缘计算设备能够学习多种复杂任务卸载场景下的任务卸载策略,提出了一种基于多智能体深度强化学习算法的联邦学习策略算法,旨在将多个边缘计算设备的训练策略聚合起来,并学习更优的任务卸载策略以适应更多样的场景,同时对于恶意节点有一定的防护能力。以奖励翻转攻击为例,该算法展示了对于恶意节点的有效识别与抵御能力。实验结果显示,所提算法不仅能够有效防御恶意攻击,还能够学习各节点的任务卸载策略。 展开更多
关键词 任务卸载 恶意节点检测 联邦学习 多智能深度强化学习
下载PDF
聚类与信息共享的多智能体深度强化学习协同控制交通灯
18
作者 杜同春 王波 +2 位作者 程浩然 罗乐 曾能民 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第2期538-545,共8页
该文提出一种适用于多路口交通灯实时控制的多智能体深度循环Q-网络(MADRQN),目的是提高多个路口的联合控制效果。该方法将交通灯控制建模成马尔可夫决策过程,将每个路口的控制器作为智能体,根据位置和观测信息对智能体聚类,然后在聚类... 该文提出一种适用于多路口交通灯实时控制的多智能体深度循环Q-网络(MADRQN),目的是提高多个路口的联合控制效果。该方法将交通灯控制建模成马尔可夫决策过程,将每个路口的控制器作为智能体,根据位置和观测信息对智能体聚类,然后在聚类内部进行信息共享和中心化训练,并在每个训练过程结束时将评价值最高的值函数网络参数分享给其它智能体。在城市交通仿真软件(SUMO)下的仿真实验结果表明,所提方法能够减少通信的数据量,使得智能体之间的信息共享和中心化训练更加可行和高效,车辆平均等待时长少于当前最优的基于多智能体深度强化学习的交通灯控制方法,能够有效地缓解交通拥堵。 展开更多
关键词 交通信号灯协同控制 集中训练分散执行 强化学习智能聚类 生长型神经气 深度循环Q网络
下载PDF
基于多智能体深度强化学习的车联网资源分配方法
19
作者 孟水仙 刘艳超 王树彬 《无线电工程》 2024年第6期1388-1397,共10页
在车联网中,合理分配频谱资源对满足不同车辆链路业务的服务质量(Quality of Service,QoS)需求具有重要意义。为解决车辆高速移动性和全局状态信息获取困难等问题,提出了一种基于完全分布式多智能体深度强化学习(Multi-Agent Deep Reinf... 在车联网中,合理分配频谱资源对满足不同车辆链路业务的服务质量(Quality of Service,QoS)需求具有重要意义。为解决车辆高速移动性和全局状态信息获取困难等问题,提出了一种基于完全分布式多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)的资源分配算法。该算法在考虑车辆通信延迟和可靠性的情况下,通过优化频谱选择和功率分配策略来实现最大化网络吞吐量。引入共享经验池机制来解决多智能体并发学习导致的非平稳性问题。该算法基于深度Q网络(Deep Q Network,DQN),利用长短期记忆(Long Short Term Memory,LSTM)网络来捕捉和利用动态环境信息,以解决智能体的部分可观测性问题。将卷积神经网络(Convolutional Neural Network,CNN)和残差网络(Residual Network,ResNet)结合增强算法训练的准确性和预测能力。实验结果表明,所提出的算法能够满足车对基础设施(Vehicle-to-Infrastructure,V2I)链路的高吞吐量以及车对车(Vehicle-to-Vehicle,V2V)链路的低延迟要求,并且对环境变化表现出良好的适应性。 展开更多
关键词 车联网 资源分配 多智能深度强化学习 深度Q网络
下载PDF
一种基于一致性的多智能体Q学习算法
20
作者 崔浩岩 张震 +1 位作者 赵德京 廖登宇 《控制工程》 CSCD 北大核心 2024年第7期1169-1177,共9页
针对多智能体系统中智能体通信能力受限和多智能体强化学习中联合动作空间维数灾难问题,提出一种基于一致性的多智能体Q学习(multi-agent Q-learning based on consensus,MAQC)算法。该算法采用集中训练-分散执行框架。在集中训练阶段,M... 针对多智能体系统中智能体通信能力受限和多智能体强化学习中联合动作空间维数灾难问题,提出一种基于一致性的多智能体Q学习(multi-agent Q-learning based on consensus,MAQC)算法。该算法采用集中训练-分散执行框架。在集中训练阶段,MAQC算法采用值分解方法缓解联合动作空间维数灾难问题。此外,每个智能体将自己感知到的局部状态和接收到的邻居的局部状态发送给所有邻居,最终使网络中的智能体获得所有智能体的全局状态。智能体所需的时间差分信息由一致性算法获得,智能体只需向邻居发送时间差分信息的分量信息。在执行阶段,每个智能体只需根据与自己动作有关的Q值函数来选择动作。结果表明,MAQC算法能够收敛到最优联合策略。 展开更多
关键词 多智能强化学习 智能通信 一致性 Q学习 值分解
下载PDF
上一页 1 2 18 下一页 到第
使用帮助 返回顶部